×

Loading...

想起家里高中生寒假前的一个数学作业:用数学函数描绘一幅日本浮世绘浪花图,图上的一个角的浪花有200多曲线,最后用了200多分段曲线来描绘,粗看上去还挺逼真,放大几倍就可以看到差异,Sora所做的本质上差不多,就是在二维上模拟世界景像,甚至不是三维的。

他是基于二维的图像生成器 dalle发展出来的,他呈现的不少物体有的甚至在透视上有问题。我相信这些枝节的技术问题不难解决,挑战是在大的方向。

"懂了一点",换句话说就是实现了零的突破,可惜没有,如果真的有,很难想象奥特曼会把它作为狙击对手的工具推出来。

基于统计的人工智能目前尚未发展出通用人工智能(AGI,Artificial General Intelligence)。目前的人工智能系统主要是针对特定任务或领域设计的,称为弱人工智能(Narrow AI),它们在特定任务上可以表现出色,但缺乏通用的智能和理解能力。

尽管基于统计的方法在机器学习和深度学习等领域取得了巨大成功,但这些方法仍然局限于对数据的统计分析和模式识别。它们缺乏对世界的整体理解和推理能力,无法像人类一样灵活地适应各种任务和环境。

要实现通用人工智能,需要更多领域的突破和整合,包括推理、理解、学习、规划等能力。通用人工智能需要具有人类类似的认知能力,能够处理各种不同的任务和情境,并且能够从经验中学习和推理。

在奥特曼推出sora的同一天,杨丽坤yann lecun推出了他的世界模型 V-JEPA,是一种非生成模型,通过在抽象表示空间中预测视频的缺失或掩码部分来进行学习。这类似于我们的图像联合嵌入预测架构(I-JEPA)比较图像的抽象表示(而不是比较像素本身)。与试图填补每个缺失像素的生成方法不同,V-JEPA具有灵活性,可以丢弃不可预测的信息,从而通过1.5倍至6倍的因子提高训练和样本效率。

杨丽坤的研究也不过是刚起步,尚未取得重大的突破。很多AI在做生生成式模型之外的研究,比如图灵奖之一的Yoshua Bengio最近在做AI和意识的关系的基础研究。

总之AI尚处在非常初级的阶段

Sign in and Reply Report

Replies, comments and Discussions:

  • 工作学习 / 科技自然 / 文学城这篇感慨SORA文章的结语挺好的:失落之际,科技列车轰隆驶来,前路未卜,福祸未知,但胜过困顿原地。也许以后SORA能够抽取人类大脑信息,在虚拟空间生成人类,或者超人类。我们每个人都可以在虚拟空间永生了,或者见到逝去的亲人。

    文章来源:摩登中产


    凡所有相,难分虚妄。

    大年初六凌晨,所有眺望前沿的人都陷入亢奋之中。

    当夜,OpenAI发布首个视频生成模型Sora,仅凭几句描述,便可生成60秒连贯视频,镜头百变,如梦似幻。

    它降临得如此突兀又强力。

    如果说,一年前GPT-4出世如远天惊雷,预示暴雨将至。那么Sora亮相,便如雪夜大江上,忽然驶来灯火通明的楼船。

    那楼船载满梦境,几可乱真:苍凉的落日,蓬松的云朵,樱花树下跃动的黑发,水洼里倒映的霓虹,闹市舞龙以及蹑足的猫……凡所有相,难分虚妄。

    视频中最震撼一幕是一群纸飞机飞越丛林,折纸如鸟,自然轻灵,荒诞又从容。

    一切都是假的,一切也是真的。

    Sora韩语中代表海螺,可致敬《海底两万里》的鹦鹉螺号,芬兰语意为砂砾,可联想《沙丘》里的奇幻星海。

    日语中,Sora是“天空”,并能引申为“自由”,或许这更接近官方本意。自此之后,梦境不再是个人专属,每个人都可自由展示想象空间。

    强力的冲击如海啸,快速成型,拍击世界,破碎声从各地响起。

    最先惊呼来自短视频行业。有博主说看完Sora视频后,“呆坐两小时缓不过来”,有老板发文“整个素材行业都因它到来消亡”。

    全球最火的油管博主“野兽先生”,在OpenAI创始人推特下留言,“请别让我无家可归”。

    游戏圈同样慌乱,3D设计师发推“无处可逃”,程序员预言“半年下岗”,大佬称下一代游戏机将是“Sora box”,几段文字就可渲染出游戏世界。

    冲击最终抵达好莱坞。有人将好莱坞山上的经典标志,改成“SORAWOOD”。编剧称,Sora能不变主题,自然过渡,天然为电影而生。

    投资人判断称,5年之内,就会有一个不到5人的团队,用AI制作出票房超过5000万美元的电影。

    传统的电影,新兴的短剧,爆火的短视频,老迈的电视台,遭遇着同一场海啸,而后浪将很快到来。没人知道结局,夏虫不可语冰。

    推特上,Sora那段樱花漫步视频下,马斯克回复网友,“gg humans”。

    gg是电竞术语,多发在对局结束时,以示风度。最直白翻译就是,“打得好,我认赌服输”。

    “gg humans”,这一次,人类认赌服输。

    Sora的冲击远不止视频,官方技术报告中称其为“世界模拟器”。

    官方博文最后一句称:Sora是理解和模拟现实的基础。

    GPT理解的是抽象的表达,Sora理解的则是真实的规则,英伟达科学家说,Sora不是玩具,而是数据驱动的物理引擎,可演算出真实的世界。

    视频中,咖啡杯里浮沉的海盗船,依然符合流体力学;都市内虚空巡游的鲸鱼,同样遵从无形潮汐。

    Sora不是在虚构世界,而是在真实规则基础上,生成世界。

    这种生成令人尤为震撼。周鸿祎说,Sora真正理解了这个世界,并可通过理解自我成长:

    一旦人工智能接上摄像头,把所有的电影都看一遍,把YouTube 上和 TikTok 的视频都看一遍,对世界的理解将远远超过文字学习,一幅图胜过千言万语。

    如果把AI比作幼儿,文字模型更接近于与他呢喃低语,而视频模型,相当于他开眼看世界。

    这是Sora真正颠覆之处,他能理解真实,生成真实,并抹去现实和虚拟的分界线。

    黄粱未熟,还是大梦先觉?庄生梦蝶,还是蝶梦庄生?

    虚实难辨的梦境到来之际,人们重拾线索,发现这几年的科技新闻其实互为伏笔。

    AI大模型爆发前,最火主角是元宇宙。而今,百度的希壤人迹罕见,茅台的巽风空荡寂寥,Meta元宇宙一万个小世界,九成以上从无人烟。

    元宇宙冷寂原因,在于缺乏内容,Meta元宇宙的画风潦草如上世纪游戏,为节省算力,人物都没有腿。

    而另外一个失落的主角,是在Sora前亮相的苹果头显设备。这款酝酿近十年的产品,惊艳之后,遭批量退货,用户称过于笨重,缺乏应用。

    然而,将Sora、元宇宙和苹果头显连起来读,一个新故事开始浮现。

    元宇宙是框架体系,Sora是内容源泉,硬件设备是世界入口,殊途同归,新未来即将诞生。

    很多年前,凯文·凯利在《失控》中说,万物都会有数字版本,这世间所有,都将在数字世界建立镜像。

    过去二十年,我们为世界造出镜像,而接下来,我们将逐步生活在镜像之中。

    忽然想起很多年前的北京盛夏,海龙大厦门前,笨拙的显示器和机箱,放在板车上拉进拉出。那是建造镜像的起点。

    那天阳光很足,年轻的我们看着板车上的电脑,完全猜不到后来的故事。

    三次工业革命塑成今日的世界,数十年来,我们一直寻找第四次工业革命的主角,却忽视第三次工业革命一直在延续。

    小型计算机、互联网、芯片、神经网络、元宇宙、AI模型混合进化,连着一个正高速逼近的未来。

    那未来以AI和虚拟现实为主导,而我们与之接轨需经历三个阶段。

    第一阶段便是当下,AI技术频出,接入设备简陋、新闻里有急行的巨头、亢奋的民众以及收割韭菜的AI课。

    然而,无序会很快消失,硬件将高速进化,今年开年,国内手机巨头纷纷宣布开发AI手机,魅族将AI手机称为“明日设备”。

    第二阶段,或在三至五年内到来,标志是接入设备便捷,虚拟世界丰富,并诞生成熟的商业模式。

    此时,所有的职业和赛道会完成最后的洗牌。

    那些与肉身相关的行业,依靠皮囊的网红,依赖记忆的翻译,重复劳作的码农,被迫谢幕。而亲近灵魂的技能,设计、创意,架构成为核心,想象力是最后的堤坝。

    第三阶段,亦是终局阶段,标志是脑机接口普及,人们真正进入虚拟世界,挑战传说中的记忆上传和灵魂永生。

    悲观者认为,那是文明的塌陷,人类将沉溺幻境不思进取。乐观者则称,机械承载灵魂,才能让我们行至更远,挑战星海。

    无论悲观还是乐观,魔匣已开缝隙,一切再不可逆。

    几天前,马斯克旗下脑机接口公司称,首位植入大脑芯片的患者,已完全康复,仅凭意念,便可移动光标。马斯克说,首款产品定名“心灵感应”。

    终局正加速到来。凯文·凯利说这个时间在5000天后:现实世界与数字化完美融合,我们将迎来AI时代。

    多年前,他在混沌大学讲台上说:

    我们必须要相信那些不可能的事情,那些看起来不太可能为我们所使用的东西,将来肯定会为我们所用。我们尚处于开始的开始,处于第一天的第一个小时。

    这是历史的特殊时刻。我们在黑夜的荒原上正陷迷途,四野是退潮的声音和凄冷的风,远方有狼嚎和炮火,乌云遮月遮天。

    失落之际,科技列车轰隆驶来,前路未卜,福祸未知,但胜过困顿原地。

    • 周鸿祎:虽然我一秒钟也没用过sora,但我最了解他。sora最大的问题就是不懂这个世界,再怎么努力也不行,基于目前的神经网络Transformer架构,应该是做不出AGI +1
      • SORA应该是懂了一点儿。
        • 想起家里高中生寒假前的一个数学作业:用数学函数描绘一幅日本浮世绘浪花图,图上的一个角的浪花有200多曲线,最后用了200多分段曲线来描绘,粗看上去还挺逼真,放大几倍就可以看到差异,Sora所做的本质上差不多,就是在二维上模拟世界景像,甚至不是三维的。

          他是基于二维的图像生成器 dalle发展出来的,他呈现的不少物体有的甚至在透视上有问题。我相信这些枝节的技术问题不难解决,挑战是在大的方向。

          "懂了一点",换句话说就是实现了零的突破,可惜没有,如果真的有,很难想象奥特曼会把它作为狙击对手的工具推出来。

          基于统计的人工智能目前尚未发展出通用人工智能(AGI,Artificial General Intelligence)。目前的人工智能系统主要是针对特定任务或领域设计的,称为弱人工智能(Narrow AI),它们在特定任务上可以表现出色,但缺乏通用的智能和理解能力。

          尽管基于统计的方法在机器学习和深度学习等领域取得了巨大成功,但这些方法仍然局限于对数据的统计分析和模式识别。它们缺乏对世界的整体理解和推理能力,无法像人类一样灵活地适应各种任务和环境。

          要实现通用人工智能,需要更多领域的突破和整合,包括推理、理解、学习、规划等能力。通用人工智能需要具有人类类似的认知能力,能够处理各种不同的任务和情境,并且能够从经验中学习和推理。

          在奥特曼推出sora的同一天,杨丽坤yann lecun推出了他的世界模型 V-JEPA,是一种非生成模型,通过在抽象表示空间中预测视频的缺失或掩码部分来进行学习。这类似于我们的图像联合嵌入预测架构(I-JEPA)比较图像的抽象表示(而不是比较像素本身)。与试图填补每个缺失像素的生成方法不同,V-JEPA具有灵活性,可以丢弃不可预测的信息,从而通过1.5倍至6倍的因子提高训练和样本效率。

          杨丽坤的研究也不过是刚起步,尚未取得重大的突破。很多AI在做生生成式模型之外的研究,比如图灵奖之一的Yoshua Bengio最近在做AI和意识的关系的基础研究。

          总之AI尚处在非常初级的阶段

          • 杨丽坤,这个翻译逗,不过应该用个男性化的字吧😀 -
      • DEEP LEARNING对事物的理解和人类不同,这个从图象处理CNN开始就有结论了,即便输出结果和人类一样,思维过程也完全不同,越是和人得到相同的结论,越是让人感到害怕。
        • 深度学习就像一个黑盒子,如果这个黑盒子在一个安全框架里面,应该就不会出幺蛾子。但AI会不会突破这样的安全框架呢,普遍认为在AGI出现之前是不会的. 很多人在做的超级对齐,本质上是给AI打上不危害人类的思想钢印,但什么叫不危害人类,人类尚不知如何定义
          • 对用户是黑盒子,对DS不是。特别是CNN,可视化极强。