Google I/O 2023:让 AI 对每个人都更有帮助
5月10日,谷歌CEO Sundar Pichai 在发布会上展示了谷歌在人工智能方面的进步与成果。
作为一家以人工智能为先的公司,我们经历了七年的历程,我们正处于一个令人兴奋的转折点。我们有机会让人工智能对人、企业、社区和每个人更有帮助。
一段时间以来,我们一直在应用人工智能来使我们的产品从根本上更有帮助。借助生成式 AI,我们正在迈出下一步。通过大胆而负责任的方法,我们正在重新构想所有核心产品,包括搜索。
我们产品中的人工智能
Gmail 中的“帮我写”
有一些很好的例子说明生成式人工智能如何帮助发展我们的产品,从Gmail开始。2017 年,我们推出了智能回复,只需单击一下即可选择简短回复。接下来是智能撰写,它会在您键入时提供写作建议。智能撰写带来了由 AI 提供支持的更高级的书写功能。仅在过去一年中,它们已在Workspace中使用了超过180亿次。现在,有了更强大的生成模型,我们将在Gmail中迈出下一步,“帮我写作”。
假设您收到一封电子邮件,告知您的航班已取消。航空公司已经发送了代金券,但您真正想要的是全额退款。你可以回复,并使用“帮我写”。
只需输入您想要的内容的提示 - 一封要求全额退款的电子邮件 - 点击创建,就会出现完整的草稿。它可以方便地从上一封电子邮件中提取航班详细信息。它看起来非常接近您想要发送的内容,但也许您想进一步完善它。在这种情况下,更详细的电子邮件可能会增加获得退款的机会。“帮我编写”将作为工作区更新的一部分开始推出。就像智能撰写一样,随着时间的推移,您会看到它变得更好。
地图中路线的全新沉浸式视图
从街景早期开始,人工智能已经将数十亿张全景图像拼接在一起,因此人们可以通过他们的设备探索世界。在去年的 I/O 中,我们引入了沉浸式视图,它使用 AI 创建地点的高保真显示,因此您可以在访问之前体验它。
现在,我们正在扩展同样的技术,以做地图最擅长的事情:帮助你到达你想去的地方。谷歌地图每天提供20亿公里的路线 - 这是很多旅行。现在想象一下,如果你能提前看到你的整个旅程。借助路线的沉浸式视图,无论您是步行、骑自行车还是开车,都可以做到。
假设你在纽约市,你想骑自行车。地图为您提供了几个接近您所在位置的选项。海滨的那条看起来风景优美,但您想先感受一下它,因此单击“沉浸式视图”以获取路线。这是一种看待旅程的全新方式。您可以放大以获得令人难以置信的骑行鸟瞰图。
还有更多信息可用。您可以检查空气质量,交通和天气,并查看它们可能会如何变化。
路线的沉浸式视图将于今年夏天开始推出,并在今年年底前在15个城市推出,包括伦敦,纽约,东京和旧金山。
“照片”中的全新魔术编辑器体验
人工智能另一个更好的产品是谷歌相册。我们于 2015 年在 I/O 上推出了它,它是我们首批 AI 原生产品之一。机器学习的突破使得在照片中搜索人物、日落或瀑布等内容成为可能。
当然,我们希望您做的不仅仅是搜索照片 - 我们还希望帮助您使其更好。事实上,每个月,Google 相册中都会编辑 1 亿张图片。人工智能的进步为我们提供了更强大的方法来做到这一点。例如,首先在Pixel上推出的Magic Eraser使用AI驱动的计算摄影来消除不必要的干扰。今年晚些时候,使用语义理解和生成AI的组合,你可以通过一种名为Magic Editor的新体验做更多的事情。
这里有一个例子:这是一张很棒的照片,但作为父母,你可能希望你的孩子处于这一切的中心。看起来气球在这个中被切断了,所以你可以继续重新定位生日男孩。魔术编辑器会自动重新创建原始镜头中未捕获的长凳和气球部分。作为点睛之笔,您可以点击天空。这也会改变照片其余部分的照明,使编辑感觉一致。这真的很神奇。我们很高兴在今年晚些时候在 Google 相册中推出魔术编辑器。
让 AI 对每个人都更有帮助
从 Gmail 和照片到地图,这些只是 AI 如何在重要时刻为您提供帮助的几个示例。我们可以做更多的事情,在你熟悉和喜爱的产品中充分发挥人工智能的潜力。
今天,我们有 15 种产品,每种产品都为超过 50 亿人和企业提供服务。其中六款产品分别为超过20亿用户提供服务。这给了我们很多机会来完成我们的使命——组织世界信息并使其普遍可用和有用。
这是一项永恒的使命,随着时间的流逝,感觉越来越重要。展望未来,让人工智能对每个人都有帮助是我们推进使命的最深刻的方式。我们通过四个重要方式做到这一点:
首先,通过提高你的知识和学习,加深你对世界的理解。
其次,通过提高创造力和生产力,这样你就可以表达自己并完成工作。
第三,使开发人员和企业能够构建自己的变革性产品和服务。
最后,通过负责任地构建和部署人工智能,让每个人都能平等受益。
大语言模型更新:PaLM 2和Gemini
我们对未来的机遇感到非常兴奋。我们让人工智能对每个人都有帮助的能力依赖于不断推进我们的基础模型。因此,我想花点时间分享一下我们是如何接近它们的。
去年,您听到我们谈论 PaLM,它为我们的产品带来了许多改进。今天,我们准备宣布我们最新的 PaLM 型号:PaLM 2。
PaLM 2 建立在我们的基础研究和最新的基础设施之上。它非常有能力执行各种任务,并且易于部署。我们今天宣布推出超过 25 款由 PaLM 2 提供支持的产品和功能。
PaLM 2 型号可在各种尺寸上提供出色的基础功能。我们亲切地将它们命名为壁虎、水獭、野牛和独角兽。Gecko非常轻巧,可以在移动设备上工作:速度足够快,即使在离线时也能在设备上使用出色的交互式应用程序。PaLM 2 模型在逻辑和推理方面更强,这要归功于对科学和数学主题的广泛培训。它还接受过多语言文本(跨越 100 多种语言)的训练,因此它可以理解并生成细微的结果。
结合强大的编码功能,PaLM 2 还可以帮助开发人员在世界各地进行协作。假设您正在与首尔的同事一起工作,并且正在调试代码。您可以要求它修复错误并通过在代码中添加韩语注释来帮助您的队友。它首先识别代码是递归的,然后提出修复建议。它解释了修复背后的原因,并添加了您询问的韩语注释。
虽然 PaLM 2 功能强大,但在对特定领域的知识进行微调时,它确实大放异彩。我们最近发布了Sec-PaLM,针对安全用例进行了微调。它使用 AI 来更好地检测恶意脚本,并可以帮助安全专家了解和解决威胁。
另一个例子是Med-PaLM 2。在这种情况下,它是根据医学知识微调的。与基本模型相比,这种微调将不准确的推理减少了 9 倍,接近回答同一组问题的临床医生专家的表现。事实上,Med-PaLM 2 是第一个在医疗执照考试式问题上以“专家”级别执行的语言模型,并且是目前最先进的语言模型。
我们还在努力为 Med-PaLM 2 添加功能,以便它可以合成来自医学成像的信息,如普通胶片和乳房 X 光检查。你可以想象一个人工智能合作者,帮助放射科医生解释图像并传达结果。这些是PaLM 2在专业领域使用的一些示例。我们迫不及待地想看到它更多地使用,这就是为什么我很高兴地宣布 PaLM 2 现在提供预览版。
PaLM 2 是我们长达十年的旅程中的最新一步,旨在以负责任的方式将 AI 带给数十亿人。它建立在两个世界级研究团队Brain Team和DeepMind取得的进展之上。
回顾过去十年中决定性的人工智能突破,这些团队为其中做出了相当大的贡献:AlphaGo,变形金刚,序列到序列模型等。所有这些都为我们今天所处的拐点奠定了基础。
我们最近将这两个团队合并为一个单位,Google DeepMind。利用谷歌的计算资源,他们专注于安全、负责任地构建功能更强大的系统。
这包括我们的下一代基础模型Gemini,它仍在训练中。Gemini 是从头开始创建的,在工具和 API 集成方面具有多模式、高效性,旨在实现内存和规划等未来创新。虽然还为时过早,但我们已经看到了以前模型中没有的令人印象深刻的多模式功能。
一旦经过微调和严格的安全性测试,Gemini 将提供各种尺寸和功能,就像 PaLM 2 一样。
AI 责任:识别生成内容的工具
随着我们投资于更有能力的模型,我们也在深入投资人工智能责任。这包括拥有在遇到合成生成内容时识别合成生成的内容的工具。
两种重要的方法是水印和元数据。水印将信息直接嵌入到内容中,即使通过适度的图像编辑也能保持这种方式。展望未来,我们正在构建我们的模型,从一开始就包括水印和其他技术。如果你看一个合成图像,它看起来是多么真实,所以你可以想象这在未来会有多重要。
元数据允许内容创建者将其他上下文与原始文件相关联,从而在遇到图像时为您提供更多信息。我们将确保每个 AI 生成的图像都具有该元数据。
Bard 和 Workspace的更新
随着模型越来越好,能力越来越强,最令人兴奋的机会之一是让人们可以直接参与。
这就是我们与Bard合作的机会,Bard是我们在三月份推出的对话式人工智能实验。我们一直在快速发展Bard。它现在支持广泛的编程功能,并且在推理和数学提示方面变得更加智能。而且,截至今天,它已在PaLM 2上全面运行。
我们还为谷歌Workspace带来了新功能。除了在Docs和Gmail中“帮助我写作”外,谷歌工作区中的Duet AI还提供了从幻灯片和会议中的文本描述生成图像、在表格中创建自定义计划等工具。
介绍实验室和我们新的搜索生成体验
随着 AI 的不断快速改进,我们专注于为用户提供有用的功能。从今天开始,我们将为你提供一种新的方式来预览 Workspace 和其他产品中的一些体验。它被称为实验室。我说的是新的,但谷歌在使用实验室作为实现早期访问和获得反馈的一种方式方面有着悠久的历史,你可以今天晚些时候开始注册。
除了您刚刚看到的Workspace功能外,您还可以在实验室中测试的首批体验之一涉及我们的创始产品 Google 搜索。我们多年前开始深入投资人工智能的原因是,我们看到了让搜索变得更好的机会。随着每一次突破,我们都使它更加有用和直观。
语言理解的改进让我们更自然地提出问题,并访问网络上最相关的内容。计算机视觉的进步引入了视觉搜索的新方法。现在,即使您没有文字来描述您要查找的内容,也可以使用Google Lens搜索您看到的任何内容。事实上,Lens 每月用于超过 12 亿次视觉搜索,在短短两年内增长了 4 倍。镜头与多模态相结合导致了多重搜索,它允许您同时使用图像和文本进行搜索。
展望未来,谷歌对信息的深刻理解与生成式人工智能的独特功能相结合,可以再次改变搜索的工作方式,解锁搜索可以回答的全新问题,并创造越来越有用的体验,将您与丰富的网络联系起来。
当然,将生成式人工智能应用于搜索仍处于早期阶段。世界各地的人们在重要时刻都依赖搜索,我们知道正确做到这一点并继续赢得他们的信任是多么重要。那永远是我们的北极星。
因此,我们以负责任的态度进行创新,从一开始就一如既往地努力实现信息质量的最高标准。这就是我们首先在实验室中为你带来新的搜索生成体验的原因。
让他人轻松创新
人工智能不仅是一个强大的推动者,也是一个重大的平台转变。每个企业和组织都在考虑如何推动转型。这就是为什么我们专注于让其他人能够轻松且可扩展地使用 AI 进行创新。
这意味着提供最先进的计算基础设施——包括最先进的 TPU 和 GPU——并扩大对谷歌最新基础模型的访问,这些模型已经在我们自己的产品中进行了严格测试。我们还致力于提供世界一流的工具,以便客户可以训练、微调和运行自己的模型,并具有企业级的安全性、安全性和隐私性。
利用安卓推动进步
我们对人工智能的大胆和负责任的方法可以释放人们的创造力和潜力。我们还希望确保这种帮助惠及尽可能多的人。我们通过Android等计算平台做到这一点,今天我们分享了AI的进步如何使您的手机更加个性化,包括魔术作曲,电影壁纸和生成AI壁纸。
为您的口袋和家居推出全新 Pixel 设备
我们还推出了 Pixel 7a、Pixel Fold 和 Pixel Tablet ,用于由 Google 设计的 AI 设备的完整生态系统。Pixel 7a从今天开始开放购买,Pixel Fold和Pixel Tablet现已开放预订。
共建未来
我一直在反思我们都参与的重大技术变革。人工智能的转变是巨大的,这就是为什么我们让人工智能对每个人都有帮助如此重要的原因。我们带着兴奋的心情大胆地接近它。我们以负责任的方式这样做,强调了我们对把事情做好的深刻承诺。
没有一家公司可以单独做到这一点。我们的开发人员社区将是释放未来巨大机遇的关键。我们期待着共同努力,共同建设。