
在人工智能领域,谷歌的最新发布引起了业界和市场的高度关注。据网络上公布的视频演示,谷歌的全新大型语言模型Gemini在多模态方面展现颠覆性的进展,不同于大众所熟知的仅能处理文本的AI,Gemini支持多种输入方式,包括语音、视频和音乐,接近人类的交流方式。
Gemini的多模态能力让它能够处理和理解视频片段、照片、手绘草图甚至与用户通过语音对话,进一步能够将这些多种形式的输入综合起来处理。谷歌虽然承认其演示视频经过剪辑,但从视频中演示的场景来看,Gemini的这些能力显而易见。
谷歌的这次发布,体现出以下几个突出优势:首先,人才优势明显,据悉,谷歌此次约动用了近1000人的专业队伍参与项目开发;其次,谷歌占据了场景和流量优势,作为全球互联网的核心入口,包括Gmail、搜索引擎、Chrome浏览器和安卓操作系统等在内,其应用场景与Gemini的结合可以快速获得大量用户的使用和反馈,有利于模型的进一步优化。
第三,作为搜索引擎起家的公司,谷歌掌握着海量的数据和深厚的知识积累,在数据训练方面不逊色于任何竞争对手。第四,公司如谷歌、百度、360这类搜索巨头有其独特优势。谷歌计划将搜索与大型语言模型融合,不立刻更新的知识缺点通过实时的搜索补充,以实现智能搜索和丰富即时的知识覆盖,这样的结合预示着潜在的革命性突破。
谷歌还拥有优质的语料积累——YouTube,作为人类重要的视频知识库,提供了大量的数据和知识标签,这在未来多模态学习中扮演重要角色。此外,谷歌拥有的人工智能芯片TPU为其提供了在大模型训练速度和成本上的优势,这将为Gemini的使用提供支持。
随着谷歌与OpenAI之间的竞争,未来的焦点可能围绕着开发者群体。对于创业者而言,人工智能带来的机会不仅仅在于创造新的超级应用,而在于在现有的传统产品和业务中,整合AI技术,改造各个垂直细分的场景。创业者应在认可大模型革命性变革的同时,具体进入业务流程和产品功能的细节,寻求使用AI进行有效改造的可能性。
在这场激烈的技术竞赛中,谷歌的Gemini以其先进的多模态能力和深厚的技术背景,没有疑问将成为OpenAI的有力竞争者,或许也将推动整个人工智能领域迈向一个新的阶段。





