有传言称,苹果将推出生成式AI版本的Siri,预计将于2024年末在下一代iPhone16系列的iOS18上首次亮相。该公司的研究人员刚刚详细介绍了iPhone能够克服RAM问题的一种方法。在设备上成功运行复杂的LLM的局限性。
Apple研究人员记录了(pdf)一种允许大型语言模型(LLM)在设备上运行的新方法,该方法采用独特的方法来克服移动设备上的RAM限制。像OpenAI的ChatGPT4这样的LLM的完整版本有大约1.7万亿个参数,需要强大的服务器来处理处理。然而,谷歌的新GeminiAI(据称可以击败GPT-4)为智能手机提供了“Nano”风格,并使用量化技术将模型减少到18亿个参数或36亿个参数。GeminiNano的其中一种变体目前运行在Google的Pixel8Pro智能手机上(亚马逊售价降至799美元,原价999美元)。
高通声称,其新的Snapdragon8Gen3SoC可以支持高达100亿个参数的生成式AILLM,虽然比Google在Pixel8系列上的能力要强大得多,但这与1.7仍然相差甚远。要使GPT-4发挥如此令人印象深刻的功能,需要万亿个参数。量化使移动SoC更容易处理LLM,但也意味着它们会失去准确性和有效性。因此,任何可以帮助增加可以硬塞到移动设备上的模型大小的东西,法学硕士的表现就越好。
为了使智能手机能够处理全代设备上的任务,RAM要求也相当高。将LLM减少到每个参数8位、包含70亿个参数的模型(例如Snapdragon8Gen3支持的Meta的Llama2),需要配备至少7GBRAM的智能手机。iPhone15Pro系列配备8GBRAM,因此这表明苹果开发的Llama2这样的LLM将达到当前iPhone支持的上限。苹果公司的研究人员找到了解决板载RAM限制的方法。
在一篇题为“LLMinaflash:EfficientLargeLanguageModelInferencewithLimitedMemory”的研究论文中,Apple的生成人工智能研究人员开发了一种利用iPhone闪存来补充设备板载系统RAM的方法。闪存存储带宽与LDDR5/X移动RAM不同,但Apple的研究人员开发了一种方法来克服这一固有限制。通过使用“窗口化”(AI模型重用闪存上已处理过的一些数据)和“行列捆绑”(以更有效的方式对来自LLM的数据进行分组)的组合处理,加快读取速度)。
当然,我们还没有看到苹果的法学硕士,尽管有传言称我们可能会看到基于法学硕士的更智能版本的Siri,该版本将作为iOS18的一部分首次亮相,并且能够在设备上运行下一代iPhone16Pro机型。但当我们这样做时,苹果似乎很有可能利用这种RAM扩展方法来确保它提供的LLM模型具有尽可能多的参数,以便能够在设备上有效运行。随着三星为下个月推出GalaxyS24系列而加强其生成式AI游戏,2024年即将到来,生成式AI在智能手机上也将变得司空见惯。