一次处理 80 万汉字,Gemini 1.5 Pro 值得期待吗 「智图派」

一次处理 80 万汉字,Gemini 1.5 Pro 值得期待吗 「智图派」
Drawing 2024-02-22 14.41.15.excalidraw.png

虽然 OpenAI 的 Sora 火遍全网,吸引了大家的眼球,但是不要忽略了,Gemini 1.5 的突破性进展带来的深远影响。这甚至比 Sora 都更有意义。

Gemini 1.5 相比 Gemini 1.0,虽然只是半个版本号的变化,增加了 0.5,但是在性能方面具有很大的改进,以至于达到了 1.0 Ultra 版本的能力,但是消耗的算力却更少。

我们知道,Gemini 分为三个版本,其中 Pro 是中档版本,而 Ultra 是高级版。1.0 Ultra 是与 GPT-4 对标的,因此可以说,Gemini 1.5 Pro 版本已经达到了 GPT-4 的级别,而且在一项参数上,直接超越了 GPT-4 将近 8 倍甚至 80 倍,这就是 Token 数量。

Gemini 1.5 的 Token 数量达到了 100 万,如果不了解 Token 我们可以简单理解为 AI 能够处理的字数,一般一个汉字大约占 1.2 个 Token,所以 100 万 Token 相当于 Gemini 一次性处理一部 78 万 8 千字的「红楼梦」还绰绰有余。

100 万 Token 就是 Gemini 1.5 的核心创新之一,另外还有一项是 Gemini 1.5 的技术架构是优化后的多模态稀疏混合专家模型。

把上下文窗口增加到 1M 而不牺牲性能,这是一项巨大的技术飞跃

我们先来简单对比一下就知道技术的发展有多快。一年以前,正是 ChatGPT 3.5 大火的时候,它的 Token 数量是 4 千,现在,GPT-4 的 最大 Token 是 12 万 8 ,Claude 是 20 万,而 Gemini 1.5 上来就把 Token 的天花板直接拔高了 5 倍,这还不算,Gemini 在实验中达到过 1000 万的 Token 数量。

image 1.png

那么,有这么大的数量,到底有什么意义呢?我们首先来看几个的例子。

大量信息中的推理能力。

首先是在一整本教科书中回答问题

这位叫做 Mckay 的推友把一本完整的生物学教科书输入到 Gemini1.5 Pro 中。一共491,002个 Token。然后问了三个非常具体的问题,它每个问题都回答得百分之百正确。

image 2.png

这对学生党那可真是大利好啊。

接下来,把阿波罗11号登月任务的字幕脚本,一共402页 PDF 文档交给 Gemini,然后让他”找到三个戏剧性的时刻,并列出剧本中的相关语录和对应的 Emoji”

30 秒之后,找到了三条,其中第一条是:跟我赌一杯咖啡,在原文之中确实有这句话。

image 3.png

接下来测试图片提示,画了一张草图,问 Gemini,这是什么时刻?Gemini 准确地识别出了图片并查到了具体的内容,这是尼尔·阿姆斯特朗说出“这是我的一小步,却是人类的一大步”的时刻,他成为了第一个踏上月球的人类。然后接着追问:找出这句话的时间点,Gemini 准确地找出了 4 13 24 48 这个时间戳。

image 4.png

这只是对长文本的处理,接下来是「跨模态的理解和推理」。

跨模态的理解和推理

上传一段 44 分钟的影片,大约 60 万 Token,然后给了 Gemini 一个任务:找到纸张被从人物口袋中取出的时刻,并提供纸张上的关键信息以及对应的时间戳。

大约 1 分钟后,识别出来的结果是:

12:01时,一张纸从人物口袋中被取出。这是一张日期为1924年10月23日的典当行收据,典当人签名是Will Smith,典当物品为手表和表链,金额为4美元。典当行名为 I. Goldman & Co. Pawn Brokers。

在视频中定位到 12 分时我们可以看到,Gemini 查找的完全正确:

image 5.png

接下来跟上一次类似,又是一张灵魂画手的手绘图,问:这个事情发生的时间点是什么?

Gemini 给出答案 15:34,我们看一下,果然没错。

image 6.png

好,文本、视频都没问题,代码能力又如何呢?

代码能力测试

这是一个 10 万行代码,81 万 Token 的演示,Gemini 可以在代码中找到控制动画的部分代码,并且可以使用其他代码示例中的技术来编写新的代码,还能根据要求修改任何一个示例部分的代码 1:42,有了这么强大的能力,以后屎山代码就不用愁了。

image 7.png

但是,这些都还不够强,更强的是后面两个。

大海捞针

第一个是大海捞针测试。英文叫做NIAH, 也就是,在干草堆里找一根针 (Needle In A Haystack)。

“Needle-in-a-Haystack”测试

Read more

Napkin AI: 一键生成专业图表

Napkin AI: 一键生成专业图表

主题 Napkin AI 工具介绍与使用教程:详细介绍了 Napkin AI 这款能将文本转化为专业图表的工具,并提供了实际操作指南。 AI 辅助内容创作与可视化:探讨了如何利用 AI 工具(如 NotebookLM 和 Napkin AI)来总结视频内容并将其转化为视觉吸引力强的图表。 专业图表在商业展示中的重要性:讨论了高质量图表在商业咨询和演示中的关键作用。 核心要点 * Napkin AI 能将文本自动转化为专业级别的图表,大大提高了内容创作和演示的效率。 * 该工具提供了丰富的自定义选项和高级功能,如 Spark Search 和协作功能,满足不同用户的需求。 * Napkin AI 的出现可能会降低高质量商业展示的成本门槛,使普通用户也能制作出专业水准的图表。 * 尽管目前还处于测试阶段,Napkin AI 展现出了巨大的潜力,预示着内容创作和信息可视化领域的变革。 洞见 Napkin AI 代表了一种新兴的"专业技能"趋势。

By Axton
Claude 新功能超越 ChatGPT?

Claude 新功能超越 ChatGPT?

主题 Claude最新数据分析功能发布与ChatGPT对比: 详细介绍了Claude新推出的数据分析功能,并与ChatGPT的高级数据分析功能进行了对比测试。 AI公司之间的竞争: 分析了Anthropic(Claude)和OpenAI(ChatGPT)在功能更新方面的竞争态势。 大型语言模型的数据处理能力: 探讨了Claude和ChatGPT在处理不同规模数据文件时的表现和局限性。 核心要点 * Claude新推出的数据分析功能能够处理CSV文件并生成交互式图表,展示了大语言模型在数据科学领域的应用潜力。 * Anthropic通过连续推出新功能,包括数据分析工具,似乎在直接挑战OpenAI的市场地位,反映了AI公司间激烈的竞争态势。 * 虽然Claude在图表交互性和视觉效果上表现出色,但在数据处理能力和全面性上仍落后于ChatGPT的高级数据分析功能。 * 大型语言模型正在向多功能、集成化方向发展,不再局限于纯文本处理,而是扩展到数据分析、可视化等领域。 洞见 AI公司间的功能竞争正在推动"AI即服务"(AIaaS)生态系统的快速演变。随着像Claude

By Axton
Claude 3.5: AI 自主操作电脑

Claude 3.5: AI 自主操作电脑

主题 Claude的新功能 - AI操作计算机: 介绍了Anthropic公司最新发布的Claude 3.5 Sonnet模型,能够按照用户指令操作计算机,包括移动光标、点击和输入信息。 AI操作计算机的意义与影响: 分析了这项功能对人工智能发展的重大意义,以及可能对人类工作产生的影响。 Claude在计算机操作测试中的表现: 详细介绍了Claude在计算机操作能力评估中的表现,与人类和其他AI模型进行了对比。 AI与现有工具的融合: 讨论了AI如何与现有计算机环境和工具相融合,以及这种融合对未来自动化发展的影响。 核心要点 * Claude 3.5 Sonnet模型展示了AI操作计算机的能力,标志着人工智能向AGI迈进的重要一步。 * AI操作计算机的能力源于多模态技术和工具使用研究的结合,展现了AI在复杂任务中的应用潜力。 * 虽然Claude在计算机操作测试中的表现(14.9%)远低于人类水平,但已大幅领先于其他AI模型,预示着未来快速进步的可能性。 * AI与现有计算机环境的融合代表了一种新趋势,即AI开始适应现有工具,而非工具适应AI。 * 这项技术的

By Axton