国产王炸!上海AI Lab开源Lumina-DiMOO,开创多模态理解与生成新范式
上海人工智能实验室,上海创新研究院,上海交大,南京大学,悉尼大学,港中大,清华,共同推出了被誉为新一代多模态生成与理解统一模型的Lumina-DiMOO。 “An Omni Diffusion Large Language Model for Multi-Modal Generation and U…
干货!2025年AI Agent超100页全景报告:MCP、RAG、实战案例
知名AI、数据科学家Avi Chawla最近精心整合关于AI Agent的,117页PDF的全景技术报告。 这份报告的内容非常全面,无论是技术新手或老手都能深度了解关于智能体的相关内容。在基础理论部分,清晰阐述基础概念,深入剖析大模型、RAG与智能体的区别和关系,帮助开发者构建扎实认知根基。 在技术…
估值超1800亿美元!大模型平台Anthropic完成130亿美元融资
今天上午,全球著名大模型平台Anthropic在官网宣布获得130亿美元F轮融资,估值达到1830亿美元。 本次由ICONIQ、Fidelity Management & Research Company和Lightspeed Venture Partners共同领投。这轮投资不仅展现了投资…
腾讯开源WMT2025冠军大模型:拿下30个第一,同类最佳
昨晚,腾讯开源了2025年世界机器翻译大会(WMT2025)上斩获佳绩的翻译大模型Hunyuan-MT-7B。 根据比赛成绩显示,Hunyuan-MT-7B在中文、英文、法语、德语、马拉地语、爱沙尼亚语、冰岛语、芬兰语、匈牙利语、罗马尼亚语、波斯语、印地语、孟加拉语、泰米尔语、乌尔都语、僧伽罗语等3…
高效大规模创新3D重建模型iLRM
基于前馈网络的3D建模方法因其快速且高质量的重建能力而备受关注。尤其是直接生成显式3D表示的方法,因其快速渲染能力和广泛的应用前景而受到青睐。但多数现有的基于Transformer架构的模型在处理多视图输入时面临严重的可扩展性问题。 这些方法依赖于对所有输入视图的图像token进行全注意力计算,随着…
OpenAI刚刚发布GPT-Realtime,AI Agent进入超逼真对话时代
今天凌晨1点,OpenAI进行了技术直播发布了语音模型GPT-realtime。 GPT-realtime是一个专用于语音AIAgent的多模态模型,能够生成更加自然流畅的语音,完美模仿人类丰富多样的语调、情感以及语速,支持图像理解并将其与语音或文本对话相结合使用,非常适用于客服、教育、金融、医疗等…
专治智能体盲跑!微软发布AI Agent 5大可观测性,打通任督二脉
今天凌晨,微软在官网发布了AI Agent 5大可观测性最佳实践,以帮助开发者深度解决智能体盲跑、自动化流程不可控等难题。 智能体可观测性的主要好处包括:在开发早期检测并解决问题;验证智能体是否符合质量、安全和合规标准;优化生产中的性能和用户体验;维护智能体的信任和问责制等。 同时还展示了5个应用案…
当AI成为预言家:大数据时代,我们正在失去理解世界的能力吗?
最近,我在斯坦福大学的一篇文章中读到了神经科学家Grace Huckins的观点,她提出了一个令人深思的问题:"虽然强大的AI工具和海量数据集正在推动实际进步,但它们可能没有深化我们对宇宙的理解。" 这句话像一记重锤,敲在了我的思考深处。在这个AI大爆炸的时代,我们每天都在惊叹于技术的进步:Alph…
马斯克开源新模型:能实时抓取社交平台数据,20万块H100训练
马斯克宣布,旗下大模型平台xAI开源其去年最佳模型Grok-2.5,并且在6个月内开源旗舰模型Grok 3。 与其他同类大模型相比,Grok-2.5最强功能就是可以实时抓取社交平台X(也是马斯克的)数据,例如,用户想询问今日NBA比赛结果时,会自动检索X平台的实时讨论和权威媒体发布的比分数据,生成包…
2025-08-22
今天凌晨,谷歌在官网宣布,谷歌搜索的AI模式新增AI Agent功能,可自动帮助用户完成预订餐厅、定制搜索结果。 例如,用户可以询问预订晚餐的餐厅,包括多种约束条件和偏好,包括人数、日期、时间、地点、口味、禁忌和偏好的菜系等。 Agent智能体会在多个预订平台和网站上搜索,找到符合用户特定需求的餐厅…