文|真梓(315159284)
来源|数字时氪(ID:digital36kr)
5月底的北京神州数码大厦5层,似乎看不出有公司办公的影子。
在这层的东南角,几名装修工人正架着梯子修缮屋顶设施;旁边的墙壁上,前租户字节跳动的Logo还未完全取下;前台没有人影,只有一张红色待客沙发躺在墙角。
而伴着隐隐电钻声往内走两步,一面印着“HiDream.ai”公司字样的墙壁却出现在眼前。
这家名为HiDream.ai(智象未来)的公司,主打人工智能业务,由前京东副总裁、加拿大工程院外籍院士梅涛于今年3月成立。
“最早的办公室是一间在亚运村的公寓。”梅涛向36氪介绍,虽然成立不足三个月,但这处还未完全装修完毕的场所,已是HiDream.ai的第二个办公地点。
用一个月完成从大厂高管到创业者的身份转变,等不及找到电费划算的商用办公地,也不在乎装修的完善度——自从开始创业,梅涛一直处在一种“急迫”的氛围中。他向36氪解释,之所以赶在一个月走完辞职、创业流程,是觉得“再不做就晚了”,会“miss掉整个时代”。
这个在今天如此被重视的机会,必然是生成式AI。
“ChatGPT太‘猛’了。”梅涛向36氪回忆第一次使用这款应用的瞬间,发现它和自己此前在微软参与的、需要强人工协助的对话Bot完全不同,真正称得上“智能化”。
而让他彻底决定入局的,则是Stable Diffusion、Midjourney这类文生图产品。
“五年以前我们生成图片用GAN,其实是判别式的算法,生成内容不可控、细节也不好。”作为以多媒体和视觉为主要研究方向、论文被引用超三万次的专家,梅涛在体验过Stable Diffusion、Midjourney的图片生成效果后,意识到视觉领域同样迎来生成式AI的里程碑。
但技术只是一方面。在京东的产业实践经历让他相信,能否进入工作流才是真正检验一款产品价值的试金石。对比之下,虽然Midjourney已是世界级流行产品,但仍存在着生成的内容不可控,进入工作流困难的问题。
HiDream.ai的切入点也正来于此。它希望围绕视觉,打造生成式多模态基础模型及应用,并让基于此生成的内容,真正进入营销、设计场景的业务流中。
“这是适合我们团队的机会。”梅涛总结。
HiDream.ai种子轮投资人,阿尔法公社创始合伙人许四清也认同这一点。他告诉36氪,梅涛选择的垂类模型+实际应用的赛道,是最匹配他本人背景、经验的选择,也是AIGC走向多模态应用的必经之路,“梅涛在微软、京东经历了学界、业界快二十年的洗礼,既能做模型也能做产品”。因此,阿尔法公社在一周内完成了投资流程。
在这间还在装修的办公室里,梅涛介绍,HiDream.ai已在训练60亿参数的视觉模型,并计划在年底前让模型参数量超过百亿。
而36氪还在demo中看到,针对设计师群体的优化工具,已经和文生图、图生图、文案嵌入等功能一起体现在HiDream.ai的产品中。
当这些成果出现在刚诞生三个月的HiDream.ai身上,似乎证明梅涛的雷厉风行正产生正向效果。
但想跨越Stable Diffusion、Midjourney已建立起的壁垒,就好似一家大语言模型公司,说自己想和OpenAI叫板。而在全球范围内,除却OpenAI,似乎还没有人真正成为生成式AI时代的赢家。
HiDream.ai的dream,刚刚开始。
HiDream.ai创始人、前京东副总裁、加拿大工程院外籍院士梅涛
以下是36氪和梅涛的对话部分(经编辑):切入营销领域,做超越Midjourney的产品
36氪:第一次用ChatGPT,你的感受是怎样的?
梅涛:当时第一次用,我就发现这个东西太“猛”了,至少开始能听懂人类的指令了。
其实在2009年,我们就在微软研究院内部成立了一个7人小组敢死队,想要破除传统Bot的边界。当时我们希望让大家打开手机,通过一个了解自己喜好的Bot直接获得最合适的购物、娱乐等推荐。但是,当时这种方式需要人工强参与,需要个人输入自己的时间、地点等信息,一个一个去填。
现在,ChatGPT越来越流畅,越来越智能,不需要人工强协助。当我看到它的效果,就觉得如果我再不去做人工智能创业,就miss掉了整个时代。
36氪:ChatGPT背后是语言大模型,看到你更加关注多模态和视觉方向。
梅涛:对,其实十几年前我就开始做AIGC了。最早我们在微软,已经可以通过Video生成一些精彩片段的摘要,放在搜索引擎中替代传统静态的图片结果。后来我们在京东,也做了类似图文营销、文案生成产品,也属于AIGC。但是更深的落地应该是在两年前,我们在公司里立了一个AIGC项目,用3D生成各种商品SKU的数字资产。之前这些素材要请人拍照,或者扫描变成3D的东西再使用,代价很高。所以我们想做一个非常便宜、能够应用的,把二维变成3D资产的项目。
36氪:两年前的探索效果怎样?
梅涛:比较困难。因为当时的算法速度特别慢,需要的算力也非常多,用户体验不是很好。后来,我们就发现每天都有新的模型出来,不管社区还是大公司,大模型出来的速度显然加快了。所以我认为到了一个非常好的时机,如果再不做的话就晚了。
36氪:具体哪个模型让你下定了决心?
梅涛:Diffusion Model。以前我们用GAN做,但它经常不可控,而且生成结果里面10个里可能一半都不太行,细节上也很难提升。后来发现Diffusion Model出来,逼真度确实很好,我当时觉得这就是视觉里面的GPT模型。
GAN的优化目标是,让一个机器来区别图像是人生成的还是机器生成的,只是一个yes or no的区别。其实很多时候机器是可以去欺骗这个判断标准的,因为它的判别式标准的粒度比较粗。
Diffusion Model的逻辑不一样,是说我的图像能不能经过很多步迭代后恢复出原图像。这种方案,将来我们要可控的话很简单,在噪声补偿图上加入一些Prompt或Condition,让它满足我们输入的控制。也就是,把Prompt当作一个条件,放在噪声图像里面,生成一个和Prompt相关的原始图像,结果比GAN好很多,等于可控、细节又自然。
36氪:看到HiDream.ai的定位也在视觉模型范围。
梅涛:我们想做的是生成式视觉多模态基础模型及应用。
我没有说大模型,因为视觉的foundation model和语言相比小很多。现在语言大模型动辄就是千亿级或者大几百亿级的。视觉模型,目前大概是十几个亿二十几个亿的参数,还处于GPT的1.0时代。所以,我们想做一个百亿级的这种视觉基础模型,能够让整个视觉技术模型能力提升一个台阶,类似于从GPT-2跨越到GPT-3。
视觉基础模型包括和视觉相关的几个模态,图像、视频、3D这三种模态都在其中,所以也可以叫它多模态。当然,我们说的模态也是跨模态,可以从文字到图片,文字到视频、文字到3D甚至可以从图片到视频,或者是图片到3D。我们希望用一个基础模型实现跨很多模态的能力,只不过所有的模态都和视觉相关,最后展现的结果就是视觉。
36氪:为什么一定要模型和上层应用一起做?很多应用也基于Diffusion。
梅涛:基础模型一定是要做的,这是我们创业的根本。我自己本身做这个技术做了很多年,我觉得如果自己不做基础层,只做应用,很可能会被下面的模型颠覆、甚至击穿。
所以,我们首先一定要坚持做全球领先的、视觉方面的生成式基础模型,来解决文字和视频、文字和图片、文字和3D之间的相关性问题。
第二我们要再去做一个应用,证明我们基于自己的模型,可以衍生出一个通用的生产力工具。
我们要做一个世界级别的生成式视觉基础模型。首先从模型层面上来说,一定要超过Stable Diffusion。基于这个Model,我们会在上面build一些应用,第一个应用就是文字生成图片,而且是可控的文字生成图片。你可以想象,我们未来要超越Midjourney。
36氪:现在我们的进度是?
梅涛:现在我们已经有一个60亿参数的模型。今年,首先我们的基础模型要做到百亿级参数,进入全球第一梯队,我不能说超过谁,但至少要成为一个全球领先的代表,参数要超过百亿级。第二个指标就是产品,希望能够达到甚至超越目前的Midjourney。
36氪:你觉得超越Midjourney的标准是什么?
梅涛:Midjourney做的非常好,切入的点也非常好,效果也确实不错。它已经把数据和模型的飞轮运转起来,且有反馈。
但其实,它也有很多不足。第一,它满足的要求是非常浅层的,今天大部分用户还是用它来做概念的参考,并没有进入生产流程。第二,它只是一个从文字到图片的生成应用,而且是一次性的,不能修改,无法满足设计师对一些确定性内容的需求,比如,IP形象不能变。
再比如,营销文案里面有些文字和图片结合,所谓的图文混排它现在也做不了。所以,现在Midjourney只是满足了一个非常浅层的需求,并没有到达整个营销工作流程的端到端环节。
当然,Midjourney目前还只是做了一个文字生成图片,但视频的生成会是一个更难的技术,也是一个更大的想像空间。
36氪:所以HiDream.ai至少想在营销场景做的更专业?
梅涛:具体场景可以对比供应链。从产品的设计到生产、运输、物流、再到消费、营销、客服,这个价值链很长。我们现在认为,这个链条里和创意相关的工作就是我们想做的。比如,产品设计和营销这一块是特别需要创意的,对我们来说很重要。
36氪:“创意”这个维度在其中的逻辑是?
梅涛:创意,第一并没有一个客观标准,但要求也不低;第二,创意场景对错误的容忍度是比较高的。今天一个设计师做张图,图看上去挺逼真,但有些地方有点错,没关系,通过一些简单的交互,人为去调一调就调好了。总体来说,首先这个场景对创意的新颖性要求很高,但对错误的容忍度会好一点,这是生成式人工智能最适合切入的场景。
而且,产品的设计和营销的环节是相对来说比较通用的。做好基础模型和应用,游戏、电商、广告各种场景都可以去赋能。
36氪:可以写Prompt控制变量,看到一些分镜剧本已经这么操作。
梅涛:现在不能做到100%的控制。看上去连贯,但做一模一样的,其实还是挺难的。我们的模型,目标也包括提升生成内容的可控性。
理解语义,训练出更聪明的视觉多模态模型
36氪:相比语言大模型,你怎么看视觉模型的进展?
梅涛:GPT的技能,可以认为它把整个世界的知识都记住,存储在它的神经元里面。当你想问任何一个问题的时候,它能够把相关性找出来,串成一个逻辑比较自洽的答案。
现在视觉的一些model,总共才只有十几个二十几个亿参数,它当然记不住。当你问它的时候,可能都不一定找到相应的信息能拼在一起。
图片是整个世界的最原始的表现。语言是文字,可以把整个世界事实存储、压缩,并去掉一些没有用的信息。但我们图片的信息,人眼看到的信息其实比文字类型大得多,而且是没有经过处理的原始信号。
图片、视频其实就是这个世界真实的视觉感知和思维表达,但它是没有任何语义的,要通过理解才能表达出来。比如,今天我们两个人会谈,面前一张桌上有很多水果,那我们到底是在做什么?是开会还是聊天?你要把它转成语义,这个图片才有意义。
所以,视觉本身是比文字要复杂得多的一种模态,并且目前我们最缺一个很好的工具或者算法,能够把图片或者视频很好地投给基础模型,把它变成一个类似文字的、清晰的语义表达。
36氪:高质量数据不足而导致的视觉模型语义理解问题,HiDream.ai准备怎么解决?
梅涛:大参数量可以解决其中的很多问题。第一我们机器能够看到越来越多的训练图片,也就是让机器的素材越来越多。另外我们想把图片、视频还有3D的内容放在同一个框架里面用。
我们也会发布文字到视频的产品,但今天大家训练视频的数据量是有限的。这里数据量有限,指的是一个好的视频和它的文本描述的配对,高质量的配对是很难的。
怎么样才能互补?我们希望能够把视频的内容放进来,和图片形成互补。视频一分钟有60秒,一秒钟有30帧,这么多的冗余细节,加上好的配对,可以极大增强整个数据的容量。那么反过来,图片的质量往往比较好,所以图片数据就可以反过来补充视频。另外,3D的景深信息也能够帮助到生成更逼真的图片内容。总之,图片、视频、3D放在同一个框架里面,可以互相增强,互相形成飞轮。
36氪:这种方案的可行性有多少?
梅涛:我们以前就发现这个是可行的,现在我们还在做大规模的测试。过去这个方向,会有人提出来这些 idea,但是做的效果不好。我们今天是第一次把它做出来。这样做模型的效果是,我们自己对图片、视频的理解更加精细,对图片的可控性,还有细节会做得更好。
可控性有两种。首先基于自研的基础模型,我们能设计一些功能,让设计师在对话框里或者以其他形式去修改,这样就不会出现下一个场景和上一个场景生成的东西完全不一样的情况,解决一致性的问题。另外一种,就是通过加入精细的控制指令,让图片做的更好。
36氪:整体你觉得和语言大模型相比,视觉大模型的训练难点在于?
梅涛:为什么ChatGPT能做到很大规模?除了整个模型架构的记忆能力很强以外,还有一个问题是在于,文字是可以做到自监督学习的,就是说我拿出一个词,用前面的词来预测这个词的产生,或者我中间去掉一个词,根据前后来预测一个词。所以文字很容易做到不经过标注自己来学习。但图片不行,图片你挖掉一块再去恢复,是没有太大的意义的。
图片现在学得更多的是,图里的内容如果用文字来表达,是一个什么样的表达方式。比如我拍了一段视频、拍了一个图片,我可能让5个人来标,每个人标的可能都不一样。当然,我希望标的越细越好,最后把所有的文字拿过来,让模型去学一种图片和文字之间的结构对应关系。
这样高质量的配对是很少的,今天我们要做到大参数量,让图片数量增加,还是得先通过人工或者半人工半自动的方式,才能够产生出很多这样高质量的图片和文本的匹配。
36氪:之前也有不少人用ChatGPT给Midjourney写Prompt,你觉得这种方案怎么样?
梅涛:我们发现直接用语言大模型,其实并不能解决视觉大模型的一些问题。
因为语言大模型侧重对文字本身语义的理解,但是在视觉模型里面,我们用指令来控制图片或者视频的生产时,学到的是文字和视觉信号之间的相关性,这是一个跨模态的东西。
单纯把语言大模型接过来,效果上,产品可能变得没有特别多创意,也不可控。我们现在用的最多的底层模型之一是CLIP,它让我们学到很多文字和图片之间的配对关系,这种相关性使得我们在控制图像生产上更有效。如果直接拿ChatGPT来用,它还是翻译成文字,文字token和图片之间的联系是缺失的。
HiDream.ai要做一个更好、更大的视觉模型,同时它也要具备一个重要功能,就是要理解文字的Prompt。
36氪:如果超大的视觉大模型出现智能涌现,在你的想象中会是什么样的?
梅涛:很难想象。但我首先觉得可能是生成的内容更精细和新颖。将来我们还可以想象它有没有可能生产很多长视频和高逼真的3D内容等等,能够真的把文字、图像、视频、声音放在一起做理解和生成。或许,那就是真正的AGI。