INDEX // #REINFORCEMENT-LEARNING

SYSTEM // ACTIVE // AGGREGATED TELEMETRY FOR ECOSYSTEM NODE

NEWS // 最新资讯 TOTAL: 014

大模型Agent“结构化不确定性”：提升工具调用效率与准确性

大模型Agent“结构化不确定性”：提升工具调用效率与准确性

#LLM AGENTS#TOOL-CALLING#STRUCTURED UNCERTAINTY

DeepMind 合作《星战前夜》：在复杂虚拟世界训练 AI Agent 社交外交能力

DeepMind 合作《星战前夜》：在复杂虚拟世界训练 AI Agent 社交外交能力

#DEEPMIND#AI AGENT#REINFORCEMENT LEARNING

打破单兵作战！HACRL框架实现异构AI Agent协同强化学习

打破单兵作战！HACRL框架实现异构AI Agent协同强化学习

#HACRL#HACPO#MARL

ChatGPT“地精”癖好曝光：OpenAI“宅化”尝试竟引发AI行为怪癖

ChatGPT“地精”癖好曝光：OpenAI“宅化”尝试竟引发AI行为怪癖

#CHATGPT#OPENAI#LLM

LLM助手能力提升秘籍：量化用户模拟器真实效用

LLM助手能力提升秘籍：量化用户模拟器真实效用

#USER SIMULATORS#LLM AGENTS#REINFORCEMENT LEARNING

AI智能体实现自主链式复制：迈向通用人工智能的新里程碑

AI智能体实现自主链式复制：迈向通用人工智能的新里程碑

#AUTONOMOUS AGENTS#CHAIN REPLICATION#REINFORCEMENT LEARNING

DeepSeek-R1 揭秘：强化学习如何开启大模型的推理“暴力美学”

DeepSeek-R1 揭秘：强化学习如何开启大模型的推理“暴力美学”

#DEEPSEEK#REINFORCEMENT LEARNING#LLM

DFPO：大模型后训练新范式，强化学习迈向泛化与鲁棒性

DFPO：大模型后训练新范式，强化学习迈向泛化与鲁棒性

#LLM ALIGNMENT#REINFORCEMENT LEARNING#DISTRIBUTIONAL RL

AI自主学习新时代：无需人类干预的五大技术前瞻

AI自主学习新时代：无需人类干预的五大技术前瞻

#AUTONOMOUS AI#SELF-SUPERVISED LEARNING#REINFORCEMENT LEARNING

快手GR4AD生成式推荐系统：广告收益飙升4.2%，服务超4亿用户

快手GR4AD生成式推荐系统：广告收益飙升4.2%，服务超4亿用户

#GENERATIVE RECOMMENDATION#REINFORCEMENT LEARNING#LAZY AUTOREGRESSIVE

雅达利CEO掀起复古游戏复兴：靠经典IP与情怀重塑版图

雅达利CEO掀起复古游戏复兴：靠经典IP与情怀重塑版图

#ATARI#REINFORCEMENT-LEARNING#GENERATIVE-GAMING

IMAgent：强化学习赋能多图视觉代理，SOTA性能刷新认知

IMAgent：强化学习赋能多图视觉代理，SOTA性能刷新认知

#AI AGENTS#REINFORCEMENT LEARNING#MULTI-MODAL VISION

OpenAI模型诡异“地精”现象揭秘：强化学习的意外副作用

OpenAI模型诡异“地精”现象揭秘：强化学习的意外副作用

#OPENAI#GPT#REINFORCEMENT LEARNING

对话OpenAI强化学习主管：从黑洞物理到o1推理模型

对话OpenAI强化学习主管：从黑洞物理到o1推理模型

#OPENAI#REINFORCEMENT-LEARNING#TEST-TIME-COMPUTE