2024年11月11日 AI 周刊

AI 产品与技术

由 GPT-4o 驱动的清洁机器人

一款由GPT-4o驱动的清洁机器人手臂成本仅为250美元,且在4天内搭建完成。这款机器人验证了AI模型可以驱动机器人执行任务,使得普通人也能轻松建造自己的机器人。官方介绍

In-Context LoRA

In-Context LoRA技术增加了AI生成图像的“情节记忆力”和“角色一致性”,保持不同图像之间的关联性和一致性,确保生成的多张相关图像不偏离主题。官方介绍

Runway Act-One 使用教程

Runway Act-One是一个视频和角色图像生成生动表演动画的工具,它能够转移源视频中的动态表情和微妙动作到参考角色上。官方介绍

Meta FAIR 人工多模态触感研究成果

Meta FAIR 实验室发布了三项人工多模态触感研究成果。首先,他们推出了Meta Digit 360人造指尖传感器,这款传感器具有人类级别的多模态感知能力,能够检测微小的触觉变化,如1毫牛顿的力量。其次,他们推出了Meta Sparsh,这是首个通用触觉表示,支持多种传感器和任务,帮助AI系统理解无法通过视觉获取的信息。最后,他们发布了Meta Digit Plexus,一个整合多种触觉传感器的标准化平台,支持同一机器人手上的数据采集和控制。官方介绍

苹果发布 Ferret-UI 2

苹果发布了Ferret-UI 2,这是一个专为理解和与移动用户界面交互而设计的模型,能“看懂”屏幕内容,理解用户指令与问题,并实时观察用户在手机屏幕上的操作,随时准备提供帮助和执行任务。官方介绍

苹果在 iOS 18.2 中新增 ChatGPT 限额提醒

苹果在iOS 18.2中新增了ChatGPT限额提醒,引导用户开通19.99美元/月的订阅会员,享受更多ChatGPT功能。若不开通会员,Siri将无法使用GPT进行复杂问题查询。官方介绍

小熊猫的AI编辑工具

小熊猫的AI编辑工具易用性非常好,适合小白用户。通过简单的文字输入和提示,轻松生成排版海报,高度可控,操作便捷,快速上手。官方介绍

儿童绘本故事与视频生成平台

利用AI快速生成和制作儿童绘本以及多媒体故事,从构思到制作插画、配音、发布,整个流程无需切换工具,操作简便。提供全面支持,适合创作和发布儿童故事。官方介绍

FLUX.1-dev LoRA:服装生成器

FLUX.1-dev LoRA是一个服装生成器,快速生成定制化服装效果图,支持详细描述颜色、图案、合身度、风格、材质等。提供多种风格和服装类型,包括不同面料弹性、领口样式等,满足各种时尚需求。官方介绍

E2F5工具教程:文本转语音 & 唇同步视频

E2F5工具提供了文本转语音和唇同步视频的教程,仅需5-15秒的录音,即可克隆任意人的声音,支持换脸与口型同步,让视频更加逼真。官方介绍

Google AI助手“Jarvis”意外泄露

Google AI助手“Jarvis”意外泄露,Chrome扩展短暂曝光,可协助用户完成餐厅预订、自动下单等日常任务。通过截图分析屏幕内容,利用Gemini 2.0模型决定操作。官方介绍

Google 正式推出 Gemini AI 驱动的 Vids 应用

Google正式推出了Gemini AI驱动的Vids应用,用户通过简单提示即可生成多种类型的视频演示。支持从提示或Google Drive文档中生成初始视频故事板,包括场景、脚本和背景音乐推荐等。官方介绍

ChatGPT Search 集成 Mapbox

ChatGPT Search集成了Mapbox,新增地图功能,支持查询地点及路线。官方介绍

Rive 发布 Layouts 新功能

Rive发布了Layouts新功能,设计一次,图像动画自动适应不同屏幕大小和布局。菜单和UI组件可以根据屏幕尺寸自动调整,提升响应式设计体验。官方介绍

Fish Audio 发布 Fish Agent V0.1 3B

Fish Audio发布了Fish Agent V0.1 3B,这是一个高级语音处理模型,支持即时语音克隆和文本到语音转换。官方介绍

Siri 与 Apple Intelligence 新功能:屏幕内容读取与操作

Siri与Apple Intelligence新增了屏幕内容读取与操作功能,允许开发者让应用内容可被Siri和Apple Intelligence访问,实现更智能的交互。官方介绍

智谱AI发布CogVideoX v1.5:高质量AI视频生成

智谱AI发布了CogVideoX v1.5,支持生成10秒4K、60fps超高清视频,提升图生视频的美学表现和人体运动模拟。同时发布音效模型CogSound,可为视频生成匹配的音效,实现音视频同步。官方介绍

xAI 正式推出 API

xAI正式推出了API,开发者可以基于Grok基础模型进行开发。公测阶段,每位开发者每月获得25美元的免费API额度。官方介绍

腾讯发布混元大模型 Hunyuan-Large

腾讯发布了混元大模型Hunyuan-Large,这是业界最大的开源MoE模型,包含3890亿参数,其中520亿参数为活跃参数。预训练模型支持256K的上下文窗口。官方介绍

Hertz-dev 发布首个会话音频开源模型

Hertz-dev发布了首个会话音频开源模型,支持全双工实时语音交互,120毫秒超低延迟。开发者可以下载并微调,适用于各种语音生成任务。官方介绍

腾讯发布 3D 开源模型:混元-3D

腾讯发布了3D开源模型混元-3D,10秒内即可生成高分辨率细节的3D模型,支持文本到3D、图像到3D转换,包括网格和纹理提取。官方介绍

AI 行业与政策

亚马逊推出AI从业者认证

亚马逊推出了AI从业者认证,这是一个在线学习并通过考试即可获得国际认可的AI证书。涵盖内容包括AI和机器学习基础、数据准备与分析、模型训练和部署等。官方介绍

前Meta AR 眼镜硬件负责人加入OpenAI

前Meta AR眼镜硬件负责人Caitlin Kalinowski,曾负责Meta的AR眼镜硬件(包括Orion),加入OpenAI,将负责OpenAI的机器人技术和消费硬件部门。官方介绍

OpenAI 拿下了 chat.com 域名

OpenAI拿下了http://chat.com域名,该域名已指向ChatGPT,标志着品牌的进一步扩展。预估购买金额在1500-2000万美金,体现了域名的高价值。官方介绍

本文部分素材来自网络,侵删请联系站长。

扫码关注本站公众号/加入知识星球,订阅更多精彩内容

(0)
AI研究生的头像AI研究生订阅会员
上一篇 2024年11月12日 上午11:02
下一篇 2024年11月13日 上午10:11

相关推荐

  • 2024年12月09日 AI 周刊

    2025年:微软预测的六大AI发展趋势,你准备好了吗? 到2025年,AI将从辅助工具演变成工作和家庭中不可或缺的组成部分。生成式AI的使用者比例从55%跃升至75%,智能代理将执行更多任务并提高工作效率。微软预测AI模型将更强大、更高效,并在科学、编程等领域发挥作用。此外,AI将在日常生活中提供更多便利,同时提高资源效率和可持续性。度量和定制将成为构建负责…

    2024年12月8日
  • 2024年12月16日 AI 周刊

    Claude 3.5编程收入3年暴涨10倍,估值180亿初创企业搅动硅谷 Anthropic凭借其AI编程助手Claude在技术和商业上取得显著进展,特别是在代码自动化领域,击败了OpenAI的模型。Claude 3.5 Sonnet在多项基准测试中表现出色,吸引了包括微软在内的多家公司采用。尽管OpenAI在营收和资金规模上仍占优势,Anthropic通过…

    2024年12月16日
  • 2024年12月23日 AI周刊

    40万照片还原!AI技术让圣彼得大教堂再现文艺复兴巅峰细节 梵蒂冈利用Iconem和微软的技术,仅用一个月时间,通过40万张照片创建了圣彼得大教堂的数字双胞胎。该数字平台包含42个游览点,每个点提供360°全景视图,并结合AI技术实现毫米级精度复刻。预计2025年圣年禧年时,该平台将接待超过10亿天主教徒在线参观,使其无需亲临现场即可感受这一奇迹。 Ilya…

    2024年12月23日
  • 2024年12月30日 AI周刊

    英伟达发布全新B300芯片专为o1推理大模型设计,RTX5090即将亮相! 英伟达发布新款AI芯片B300及包含72块GB300的计算单元GB300 NVL72,其FLOPS提升50%,显存从192GB增加至288GB。GB300系列通过工艺优化、功率提升及架构创新实现性能飞跃,显存带宽保持8TB/s。新产品交付方式改为参考板,给供应链带来新机会。此外,RT…

    2024年12月30日
  • 250202 期 AI 周刊:春节期间 DeepSeek 独霸热搜

    LeCun批评硅谷傲慢病,DeepSeek新模型R1-Zero成实现AGI关键 DeepSeek的R1-Zero系统因其在推理任务中的表现及对强化学习的依赖,显示出重要的研究价值,可能打破人类输入瓶颈。相比R1,R1-Zero在多项基准测试中表现相近,但无需人工标注,仅通过强化学习实现。这表明在某些领域,SFT并非必要,强化学习或可实现更广泛的推理能力。随着…

    2025年2月3日
联系站长
联系站长
返回顶部
Index