第(2/3)页 顾屿的语速放慢了,像是在帮对方一起画一幅还不存在的蓝图。 “一个序列里有十二个字。每一个字,都能同时'看到'其他所有十一个字。不需要一层一层地滑窗口,不需要一步一步地扩大感受野。每个位置直接和所有位置产生联系,然后自己决定,我该重点关注谁,忽略谁。” 任少卿的第一反应是脱口而出的。 “计算量会爆炸。” 紧接着他的眉头皱成了川字, “而且这不符合逻辑。如果不靠卷积的滑动窗口,也不靠循环网络的先后顺序,模型怎么知道这句话的语序?'我爱你'和'你爱我',在这种每个位置同时交互的结构里,权重会变得完全一样,位置信息彻底丢失了!” 顾屿眼底透出赞赏。 不愧是任少卿,立刻就捏住了Self-AttentiOn最致命的七寸——位置编码。 但他没有立刻解答,只是微微一笑: “对。” 顾屿点头,毫不意外。 “十二个字,每个字和其他十一个字交互,就是十二乘以十二,一百四十四次运算。如果是一千个字呢?一百万次。一万个字呢?一亿次。复杂度是字数的平方。” 他看着任少卿。 “所以关键从来不是这个思路对不对。理论上它是对的,你心里清楚。关键是怎么让它跑得起来,算得动,能工程化。怎么让一亿次运算压缩到GPU能并行处理的范围内,怎么把丢失的位置信息用数学手段重新注入进去。怎么让它不只是一个漂亮的数学公式,而是能真正训练出结果的工程方案。” 任少卿的手指无意识地敲着桌面。 顾屿看着他的表情。这张被雅安紫外线晒黑了一圈的脸上,正有什么东西在松动。 “这是值得你花一年甚至更长时间去攻克的课题。” 顾屿说完这句话,往椅背上靠了回去。 他知道今天说到这里就够了。种子已经种下去了。 任少卿是这个领域最顶尖的工程大脑之一,给他一个正确的方向,剩下的推导和验证,他自己会跑起来。 但方向只是第一步。 “少卿。” “嗯?” “残差网络的论文,一个月之内整理成稿,投CVPR或者ICCV。署名用'回响科技AI实验室'。” 任少卿愣了一下。 “回响科技AI实验室?我们有这个部门吗?” “现在有了。” “你牵头。” 顾屿看着他, “实验室归你管,技术方向你定,我不干涉具体研发。至于五十层、一百层的后续消融实验,全部交给你那两个师弟去跑。你现在的核心精力,必须从代码里抽出来,放到这篇论文的撰写和新架构的统筹上。学会当一个实验室的主导者,而不是一个苦哈哈的程序员。” 任少卿神色微凛,认真地点了点头。 顾屿接着说道: “作为老板,我只负责三件事。” 他竖起三根手指。 “第一,钱。研发预算我来批,你花多少我给多少,不设上限。九章基地那边的算力你继续用,不够我追加采购。同时我会让徐静在雅安预留出一整块独立区域,专门给AI实验室的训练任务。” 任少卿的喉结动了一下。 “第二,人。光靠你和两个师弟不够。我给你调一个人过来。” 顾屿拿起手机,翻到通讯录里一个名字。 “楼天城。听说过吗?” 任少卿当然听说过。 搞计算机的人没有不知道楼天城的。 TOpCOder连续多年世界排名第一,GOOgle、FaCebOOk都抢着要的竞赛大神。 在国内计算机圈子里,“楼教主”三个字本身就是一座山。 “他在我们公司。” 顾屿说得云淡风轻。 任少卿张了张嘴,没发出声音。 “之前在另一个部门做底层框架的工作。我会把他调到你的实验室来。” 顾屿的手指在手机屏幕上轻轻敲了两下, “你负责想清楚要做什么,他负责把你的想法变成跑得飞快的代码。你是发动机,他是变速箱。” 任少卿的呼吸明显急促了。 楼天城。 如果真的能跟楼天城搭档,那他刚才那个“计算量爆炸”的问题,就不再是一道无解的死题了。 楼天城在底层系统优化和高性能计算上,可能是全中国最强的那几个人之一。 第(2/3)页