【读书】再探Google:搜索,AI和公司文化_全球速读

2023-03-01 12:10:17 来源:XYY的读书笔记

本文大约8000字,阅读需要15分钟

欢迎关注!

前言:我们曾经在和?两篇文字中提到过Google,本篇我们主要探究几个增量问题:1.PageRank这个天才idea开创搜索引擎市场后,Google是如何迭代精进,最终走向AI的;2.Larry 和 Sergey两位创始人如何打造Google——这款产品的。3.如何从Google发展历史中寻找对ChatGPT等当下趋势借鉴?


(资料图片仅供参考)

书籍:《In the Plex-How Google Thinks,Works,and Shape our lives》by Steven Levy,这本书作者从Google创业时代开始覆盖Google超过10年,其创作也得到了Larry 和 Sergey首肯,获得了很多内部资源,应当可信。缺点是,本书出版于2010年,错过了AI发展最迅速过去10年。

Google搜索引擎从1到N

缘起于一个杰出的创意-PageRank。众所周知,Google的创始人Larry Page和Sergey Brin都就读于Stanford,且都是书香门第(父母也都是大学教授)。他们就读大学期间也正好赶上互联网崛起的初期的绝佳时点(1995年左右),而面对迅速增长的海量互联网信息,如果高效搜索成为当时痛点,Larry Page从科研论文通过引用数来鉴定含金量的底层逻辑,认为基于不同网页之间通过超链接互相引用的关系,也可以用来打造搜索引擎——被链接引用最多的网页理应是最高质量的,他们将这种算法命名为PageRank。相比于当时传统搜索引擎更多基于网页中关键词出现的频率等因素来检索,PageRank避免了诸多例如干扰(例如故意插入很多无效的关键词)。基于爬虫-检索-搜索-交付结果四步基础逻辑,Sergey 主要负责初期搜索引擎的编程和构建,在此过程中也增加例如关键词出现频率,字体大小,大小写,关键词位置等多重因素,用来校正结果。PageRank最终获得了显著强于当时市面上搜索引擎的结果——例如搜索Bill Clinton,PageRank的结果是白宫官网(即使主页里面没有包含这个关键词),而其他搜索引擎则会出现例如Bill Clinton讲的笑话之类页面。有了“杀手锏”后,Larry 和Sergey首先想法是找个买家卖掉(他们还想完成学业),然而却没人想买,Larry开价160万美元,但当时主流搜索引擎之一Excite还价到75万美元。甚至当时Excite CEO还觉得搜索引擎不能太高效,主要原因是他们当时商业模式是门户广告,取决于用户停留时间,如果用户用完即走,那就收不到广告费用了。历史无数次证明,商业模式就是阻碍公司创新的核心要素(你赚钱的方式成就了你,但也会在未来毁了你,有哲理吧)。于是Larry和Sergey没办法,只能自己做了(他们当然也不想贱卖了自己的得意发明,希望用到实处)。

独特的“科学家团队“。Larry 和 Sergey拥有基础的技术信仰,有企业家的雄心壮志,但写代码却不是他们兴趣根本所在,他们需要建设强大团队来驱动Google前进——我们只招聘跟我们差不多人,而这意味从学术出发,比如Marissa Mayer(当时斯坦福的AI明星),比如Urs Holzle(当时Google搜索需要3.5秒,他第一次重写了Google底层代码,之前是Sergey略显业余的代码),当时UCSB的一名教授,实际上,在当时公司纷纷关闭研发实验室的背景下,Google,当时还是一家小公司如此大规模引入计算机科学家,还要成立科研小组,Larry 还多次在面试时表示他对科研方式解决核心问题有信仰(他会举柯达案例),Google成为独特的风景,也赢得了诸多志同道合,有类似对学术、技术有信仰有能力的顶级科研人才加入,这些人才成为Google核心竞争力。

解决搜索引擎即时性问题。2000年年初(当时互联网已经内容新增速度已经很快),Google搜索引擎遇到了问题——其索引的全互联网(爬虫-索引)不更新了,原因是其爬虫程序一旦某个环节出了问题就需要完全重新来过,当时Google已经有80台服务器(任何一台出问题都会出问题),且基于Google节俭的风格,其经常采购质量不怎么样的服务器,那出问题概率就更高了。这个问题重要性不言而喻,其中一个核心问题就是搜索结果时效性,以911事件为例,很多人第一时间跑到Google搜索,结果发现其无法提供即时新闻信息。为了解决问题,Google成立第一个War Room(后来成为公司传统,应对紧急情况)。当时Google一位早期工程师Jeff Dean(这位哥们现在还是Google,负责Google Research)认为爬虫程序应该重新写,他提议应该采用Sharding(分片),简单来讲就是将爬虫结果分为独立的片,一旦某些片区失效,将自动重新爬。此外,Google还发明了将索引保存在内存而不是硬盘的技术,前者更可靠,且可以每秒处理更多搜索Query,即使当时内容价格偏高,但他们认为其价格终将降低。2000年,Google和Yahoo达成合作(Yahoo和Google的合作2个月内使得Google的流量提升了50%),为后者提供搜索结果(Yahoo当时不看重搜索,只看重媒体内容和广告),Google也答应基于月度频率更新搜索结果,2003年改为按天更新,当下Google搜索索引最快可以10秒为频率来更新。实际上,搜索引擎即时性问题也是目前阻碍ChatGPT之流快速替代搜索引擎的关键点之一,ChatGPT基于的GPT3.5学习数据来自2021及以前,当下技术还很难保证例如搜索引擎的快速更新,而用户对即时信息获取又是搜索很重要场景之一。

分析用户数据改善搜索体验。2000年开始,随着搜索需求持续提升,Google开始免费收集大量用户数据,于是其开始分析用户行为数据,了解有多少人使用搜索,以及用户搜索行为(用户最高频关键词,停留时间,第一条点击率等)——最好的用户行为叫“长点击”,即用户点击搜索结果(最好是第一条),然后再也没有回来(说明已经找到了想要的答案),而大量用户行为则是“短点击”,即用户不断在不同搜索结果里面来回点击,说明他还没有找到目标答案。当用户没有找到答案时,他们就会不断更换搜索词,比如搜索“Pictures of dogs”没有答案,他们就会搜索“Pictures of puppies”,这样搜索算法就会知道dog 和puppies是可以替换的词语。随着算法不断学习,Google开始可以纠正用户输入语法错误。当然hot dog 和 boiling puppies这两组可替换词组合的区分就更难一些,但是后来算法会发现与hot dog一起出现高频词语是bread,mustard,baseball等,而不是puppies with roasting fur。随着算法越来越强大,他们开始明白“Gandi Bio”中的Bio是Biography(自传),而“bio warfare”则指Biological(生物)。这一逻辑本质上是语义分析的基础知识了(让机器懂得人类的语言)。到2000年,Google搜索引擎排名依据的参数越来越多(比如地理位置、新鲜度信号等),PageRank已经变成次要因素了(2009年Google说有200多个因素),为了应对迅速变化的外部环境,Google 搜索引擎底层代码基本上每2-3年就要重写一次,当然在每次大改中间,还有无数次小的更新迭代(当今每年还有600次迭代升级)。

Google解决人名搜索问题。虽然Google搜索已经非常优秀,但是8%情况下用户会搜索人名的时候(有时候会搜索自己),还是经常找不到有用的信息。比如搜索Audrey Fino,当时搜索结果全部是意大利演员Andrey Hepburn的信息。Google首先借力外部数据White Page,让机器算法通过学习各种人名首先知道什么关键词可能是搜索人名,对于关键词“houston baker”,如果是一位身处于德州的用户搜索,他们可能是搜索在德州的Baker(烘焙师),但是如果是一位离德州很远的用户,其大概率是在搜索一个人名。不仅仅是人名,“New York,New York Times,New York Times Square”这三组词语用户每增加一个代表的意思就很不一样。还有一个例子“Eika Kerzen”,其是一家德国蜡烛制造商,但是Google当时搜索结果牛头不对马嘴,Google工程师选择先将一些关键词进行翻译,解决了类似一系列语言导致的问题。且当时用户大约有三分之一搜索关键词是全新的(现在还有15%),不得不承认,搜索引擎确实是语义分析(机器学习)的最佳使用基地。

远离不良内容,对抗SEO。Larry 和 Sergey认为每页10个结果是合适的展示数量,为了对抗不良内容,最开始Google封锁一些关键词,后来Google打造了SafeSearch产品,用来过滤色情等不良内容。此外,随着Google走红,SEO等利用其搜索引擎漏洞获取流量的手段开始走红,Google开始着手应付,当然一部分例如将网页标题和内容优化的SEO手段实际上对用户体验是好的,但Google认为大多数不正规的SEO本质上是自己没做好,算法存在漏洞的缘故。Google的更新是基于农历周期的,每次月圆的时候都会迎来更新,SEO们就开始要紧张了。一系列优化后(当然还有使用Google引以为傲的A/B test的试验方式),Google的搜索结果显著好于其他搜索引擎,逐步占据美国搜索市场70%市场份额。

打造一站式搜索。早期,为了迅速解决不同问题,Google针对不同垂类的内容打造了多款搜索引擎,比如新闻、图片、视频(没有引用Link)等,此后Larry和Sergey推动Google将这些不同垂类搜索整合为一个Universal Search。当一位用户输入搜索请求后,Google将交付一系列不同类型的搜索结果,这些结果优先级如何展示,这里首先应该是识别用户搜索意图,根据用户需求来展示对应内容优先级。当然,Google工程师Bailey表示有时候也靠自身的直觉来判断。2002年时候,Google准备推出一款叫Froogle(针对商品搜索引擎)的产品,但是这款产品当你搜索“Running Shoes”时候,第一个结果是一款穿了运动鞋的雕塑。这个问题一直困扰工程团队,他们多次修改算法,那个结果始终没有改变。突然有一天,这个雕塑商品结果消失了,最后发现是一位工程师把它买走了(Google不直接修改算法输出的内容,不作弊)。最终,Google建立了互联网的“镜像”,建立了用户搜索心智:“如果你Google了,你就做了研究工作,反之,则没有”。

AI翻译,通用人工智能的雏形。Peter Norvig是《Artificial Intelligence:A Modern Approach》这本人工智能标准教科书的作者之一,他后来成为Google研究部门的主管(2000年加入Google),他推动人工智能渗透到Google业务的方方面面。AI重要应用场景之一就是翻译,直到2004年,Google翻译的内核都是对外采购的,Sergey在一次会议上还抱怨糟糕的翻译结果。2003年,Google招聘Franz Och(计算机博士,当时在USC当顾问)专门开发翻译,前者当时还忧虑说Google主业是搜索,为何要做翻译。Larry表示Google的使命是Organize all the information(整合全世界信息,惠及人类),Google在翻译上会下重注。最终,Google翻译结果不断精进(得益于海量数据,当时主流UCI的机器学习模型使用400万个案例数据,而Google的Seti使用1000亿个案例数据),2021年还推出MUM算法模型进一步优化翻译。Google还推出Google Instant,来识别用户意图,还没输入完关键词就推荐高频搜索关键词,高效搜索(Google还能识别有自杀意图的用户)。Google科学家Spector在2010年公司内部发言说:“毫无疑问,Google现在懂很多,但其能否孵化出通用人工智能能力,自我学习的能力,应用在多元化场景(比如医疗诊断),可能我的职业生涯是看不到了”。

无法提前预测的商业化,或是颠覆性的本源

最初畅想三种收入形式,广告预计占比只有15%。Salar Kamangar是Google的元老(后来当了Youtube的CEO,说是能影响Larry 和 Sergey两位决策少数几位),但他不是技术背景,为了进Google他坚持Push Sergey给他一个机会,进来后他首先负责就是给Google编写一个商业计划(当时两位创始人不在乎,于是交给了一个新人)。当时,Google对商业化畅想是三个:1.授权费,将搜索引擎技术授权给其他公司收取授权费。他们第一笔收入2万美元来自一家叫Red Hat的公司,;2.销售硬件,公司客户可以使用这类硬件快速搜索公司内部信息;3.卖广告,他们预计会有15%左右收入来自广告(当时互联网主流广告形式是Banner广告,Larry和Sergey都很讨厌)。Larry虽然不确定哪个收入会最大,但是他明确提出Google未来收入规模将达到100亿美元。1999年7月,Google开始销售广告,Larry 和Sergey意识到Google需要一个广告系统,但是他们不知道这个系统应该是怎么样的,他们首先讨厌现在的广告形式,其次他们认为用户来搜索时候都自带确定性心智,根据用户心智提供对应的广告大逻辑是吸引人的。最开始,Google还基于Amazon当时CPS销售佣金模型来赚广告费(给商品导流获取分成5%),他们赚了开员工会的啤酒费。

颠覆式技术很难预测商业模式。实际上,Google早期对搜索引擎商业模式预测是很有道理的,甚至连国内百度最早商业模式也是将自己的技术授权各大门户网站的搜索板块。倒车回去看,颠覆式创新技术商业模式是很难提前预测的,而是实践出来的,这和当下大家预测AIGC的逻辑似乎类似,大家都认为先应该ToB,看似也很有道理,实际上可能是错的。再说一句,类似ChatGPT这种大模型最终到底会是由Google,百度这种大公司掌控(他们有资金、数据、技术等优势),还是由创业型公司退出(Open AI就是,当然由于这块创业资金门槛很高,其也不是一般小企业创业公司)。这里面很可能不是个技术问题,而是个商业问题。我们不妨将ChatGPT从商业角度分成三种情形:

A.其很快完成对搜索引擎颠覆,迅速建立庞大的商业模式(不管是啥);

B.其商业模式明显和原有搜索引擎互斥,且普及速度较快;

C.其初期没有什么商业模式,或者只在一些犄角旮旯的角落有一些零星的收入,且也短期很难撼动搜索引擎等巨头位置,但是技术曲线持续发展。

大家是不是认为C情形对现有公司威胁最小?实际上,博主的看法恰恰相反,博主认为A\B情形下,原有大公司有更大概率继续引领行业发展,A威胁最小,B威胁次之(Google为何没有抓住社交网络趋势?一个解释是社交网络底层信仰是朋友给你推荐信息,而搜索底层信仰是算法机器推荐信息,这两个是有某种矛盾的,Google底层信仰显然是后者);而如果是C情况,则原有大公司会比较危险,温水煮青蛙,等到反应过来时,很可能为时已晚,Open AI现在就有点已经获得先入优势了。当然,现在ChatGPT的出圈,资本市场上涨确实给Google等原有龙头提了个醒,需要充分重视。

再扯开说一下为啥ChatGPT没有出现在中国?当然,博主非常认可科技创新要引领,要持续做那些短期看起来没什么用但是长期可能带来颠覆性的创新科研(博主的公众号就是类似)。然而,不可否认的是中国文化更强调“实用主义”,对于短期没有回报(只有成本),长期可能有回报(也可能没有)这种科技研发整体兴趣不高。基于这种认知,我们很难引领大的科技创新。然而,我们的优势在一旦技术被证明是有用的,我们将用快速的学习能力,勤奋的态度迅速跟进,然后用庞大的规模市场将成本拉到最低,后发制人(其实很多行业都是这样了,比如服装、日用、3C、包括现在的汽车。当然不同行业技术门槛有不同,所以学习时间有差异)。所以,博主觉得我们不用焦虑也不用担忧,只要多生娃就可以(这个难道貌似更高?:))。

不走寻常路,打开新蓝海。最开始,Google的广告销售也采用销售团队模式(在纽约),其销售团队负责人Tim Armstrong来自传统广告行业。然而,这种模式一定不能让Google满意,他们首先发现互联网广告可以触达到庞大的中长尾广告主(传统电视品牌广告主要服务KA大品牌广告主),为了维护自身价值观(不作恶,后文会详细说),他们选择将广告和正式销售结果分开。此外,他们引入广告内容质量分算法,对于那些点击率高的优质广告内容,将获得更高优先级或者说更低的价格;再次,传统广告基于CPM模式,而Google开创了CPC点击收费的模式,让广告主真正为效果付费,而平台则可以通过优化点击率提升有效单价和自身收入;还有Google借鉴了当时Goto的竞价模式推出自己的竞价系统,Google的工程师创造性提出基于第二高报价定价的模型(最高报价者成交价格将是第二高出价者高1美分),相对于最高价模型,其一方面避免了猫和老鼠游戏(大家会争相以最小单位加价),另一方面也避免了第一名为出高价懊恼的情况。事实是,对第二竞价的争夺,反而会推高最终竞价结果。2002年,Google推出AdWords,此后Google不断将广告投放过程傻瓜化,最终取消了传统销售模式(在Google看起来无法规模化)。另一方面,中小广告主迅速拥抱Google(确实有效果),使得Google很快解决商业模式的问题(10-15%的广告收入畅想也明显局限了),且AB Test证明搜索广告出现并不影响用户搜索使用频率。最后,Google基于自身广告商业化能力进一步推出了Adsense(广告联盟),且基于关键词提取技术,Google将每个网页关键词化,基于网页关键词进行个性化推荐(分成比例大约68%),效果优异,Larry和Sergey点名表扬了这个项目。

反对传统营销,雇佣成熟CEO。Larry反对传统营销,当时内部PR团队制定诸多广告计划最终都被他否决,他认为Google自身就是口碑,自带流量,不需要营销(2010年后,Google也开始投放超级碗广告,Larry称之为一种测试,看看哪些增量手段还有效)。此外,当时硅谷流行为年轻创始人们配置一个成熟的CEO,最开始Larry 和Sergey反对这个提议,后来,VC们带着他们拜访了包括乔布斯、贝佐斯、Andy Grove(Intel)当时知名众多成熟CEO,他们终于改变自己的想法,但是找谁又成为了问题,跟他们聊的来的成熟CEO实在不多(首先要有深厚的技术背景),Eric Schmidt最终脱颖而出,成为Google CEO(实际上是COO,最终拍板权还是CEO,比如当时Google退出中国,Schmidt就是不同意的,但Sergey以退出相逼,他也就不表态了)。

建立Google文化:独立理性思考,技术引领发展

Montessori Kid Larry和Sergey。Marrisa Mayer曾经说过,要理解Google必须要理解两位创始人Larry和Sergey都是Montessori Kid。玛利亚·蒙台梭利,简单来讲就是强调培养孩子独立思考的能力,不人云亦云。这种教育方式在Google两位创始人身上体现淋漓尽致,当然两位创始人创立Google时,不到30的年龄也比较符合“初生牛犊不怕虎”的特点。总之,Larry和Sergey在Google面对各种问题提出解决方案时候会不断问“为什么”,对于权威他们不但不盲从,反而会有天生不信任感(诚然,下一辈人对于上一辈的不盲从,颠覆也是人类社会进步的重要本源)。另一方面,基于俩人深厚学术家庭氛围和教育背景,理性思考,数据驱动,对技术有信仰的思维是他们做决策时唯一遵循的原则。如果认为乔布斯和苹果是“感性思考(靠直觉)+技术”,Google是典型的“理性思考+技术”(Google后来在内部资源分配角度也建设了一个竞价系统)。最后,学术环境造就了Larry和Sergey对于科研的信仰(长期),初期Google公司氛围更像大学,也正是基于类似的信仰,早期Google聚集了一批“为爱发电”的顶级科研人才团队。愚人节是Google最喜欢的节日,其根源是支持大家的异想天开的创意,而Google想做的就是通过技术让这些看似异想天开的创意变成事实(Moon Shots),由此Google很多重要的产品发布都会选择4月1日(比如Gmail)。

工程师为中心。Engineer翻译成工程师多少有点失色,实际上Engineer更多指的是“技术极客”,而不是我们潜意识认知的“车间工程师”,所以那些说AI能够替代码农的确实不知道工程师代表啥,他们代表的其实是理性思维驱动的创意,绝不仅是写代码的能力。基于两位创始人的信仰,在Google,工程师是绝对的中心,其他人都是“二等公民”(实际上Instagram创始人Kevin Systrom就深切感受到这点(他在投资部门干过),于是选择离职创业。实际上,Google到2001年都没有专门产品负责人,Rosenberg后来加入成为产品VP,他想找些事情做,Bill Campell()建议他找Larry Page,后者告诉他“听工程师的就好”。在Larry看来,产品经理经常会发表竞争优势、范式变化等长篇大论,他根本不感兴趣,他不希望招聘那些看似聪明的产品经理,他只希望他的产品经理是工程师就好。实际上,以工程师为中心的文化,还可以泛化为相信机器没有偏见、绝对可信的“赛博朋克”底层信仰,Google后来在设计硬件如Pixel手机时候,也刻意减少所谓人为设计(苹果路线),其目的就是避免“人的偏见”。Google还在意人才密度,应聘Google是一场马拉松,整个过程持续6-8个月(现在差不多2个月),持续几十轮面试很正常(后来人多了简化到8轮),这里面标准很重要一条就是要符合Google文化(Googliness Screen)。此外,即使是面试久经沙场的“老手”,问GPA环节都是必不可少的,Google相信这些数据一定反映一些东西。

使命愿景和价值观。Google的使命是:”整合全球信息,供大众使用,让人人受益“。这一点至今未变。Google价值观不作恶(Don"t be evil)”是早期Google工程师们讨论出来的价值观,虽然有人表示这句话太负面,为啥不能叫“做正确的事情”(Do the right thing)。一位坚定支持者将其标语写满了整个工区,因此也就默认成为大家座右铭。这里面其实隐含一个判断,恶的标准是什么,谁来判断“。实际上,Sergey就是那个做判断的人,他说恶的事情就是恶(问题是如果他离开管理,这个标准可能就不那么明确了)。Google IPO同样也不走寻常路,正如两位创始人在股东信中第一句所说:”Google从来不是一家寻常公司,我们的目的也不是“。上市后,很多早期员工财富自由,但Google要求这些员工不要炫富(比如不要开BBA豪车到公司等),保持低调。此外上班期间如果看股票被人揭发,被揭发人就要赔检举人1股股票。

Google管理制度,深度践行OKR。早期,Larry觉得员工不需要也不喜欢被管理,于是在Google内部取消了经理(Manager)制度,这一决定遭遇了Schmidt的反对,他觉得员工是需要被管理,被指导的,一个上级不可能管100个下属(直接汇报那种)。在经历一波混乱后,Google逐步恢复了Manager制度。早期Larry 和Sergey都有私人助理,他们发现很多可有可无的事情都源自下面的人和助理沟通而来,于是他们宣布取消助理,这样反而少了很多可有可无的麻烦事情。从管理制度角度,Google最有名的就是深度践行了Intel 传奇CEO Andy Grove提出的OKR制度,其将目标进行深度量化拆解,且将目标和结果分开。OKR制度还可以实现更好公司不同层级之间协同,兼顾自上而下和自下而上(具体可见)。当然,任何一项制度都有AB面,随着时间推移OKR制度局限性也不断显现,比如OKR Review节奏(双月)太短了,对于很多需要长周期投入,且非线性输出的业务并不合适,且员工会花大量时间在OKR设计和制定上。再比如OKR会加速大家在事情上内卷,反而忽视了人的方面。Google2022年也对OKR制度进行了调整,加入了GRAD制度,其重心于“人”:你这个员工怎么样。

节省的企业文化。Larry和Sergey倡导节俭文化(对工程师很慷慨),早期Google的办公家具都是从dot-com泡沫倒闭的公司低价采购。早期Google由于用户搜索需求急剧上升,公司需要不断增加服务器来应对,因此投资上涨速度也增长很快。即使在后来自建数据中心时候,Google仍然不走寻常路——相对于其他公司为了降低故障率采购价格高昂的服务器,Google会采购廉价设备,但是考虑到故障率,进行冗余采购,从而既降低了成本,又保证平滑过渡。低调的作风,在数据中心建设过程中也体现得淋漓尽致,Google采用不知名公司作为数据中心主体(例如Design.Inc,这种毫无特征的名字),且对外持续保密(防止竞争对手竞价等),实际上,Google在数据披露上一直遵循最小披露原则,最大化保持商业机密。

欢迎关注!

关键词: 搜索引擎 搜索结果 人工智能

上一篇:【全球新视野】CT引导下经皮肺穿刺活检实操手册

下一篇:最后一页