INDEX // #REINFORCEMENT-LEARNING

SYSTEM // ACTIVE // AGGREGATED TELEMETRY FOR ECOSYSTEM NODE

NEWS // 最新资讯 TOTAL: 014
大模型Agent“结构化不确定性”:提升工具调用效率与准确性
大模型Agent“结构化不确定性”:提升工具调用效率与准确性
#LLM AGENTS#TOOL-CALLING#STRUCTURED UNCERTAINTY
DeepMind 合作《星战前夜》:在复杂虚拟世界训练 AI Agent 社交外交能力
DeepMind 合作《星战前夜》:在复杂虚拟世界训练 AI Agent 社交外交能力
#DEEPMIND#AI AGENT#REINFORCEMENT LEARNING
打破单兵作战!HACRL框架实现异构AI Agent协同强化学习
打破单兵作战!HACRL框架实现异构AI Agent协同强化学习
#HACRL#HACPO#MARL
ChatGPT“地精”癖好曝光:OpenAI“宅化”尝试竟引发AI行为怪癖
ChatGPT“地精”癖好曝光:OpenAI“宅化”尝试竟引发AI行为怪癖
#CHATGPT#OPENAI#LLM
LLM助手能力提升秘籍:量化用户模拟器真实效用
LLM助手能力提升秘籍:量化用户模拟器真实效用
#USER SIMULATORS#LLM AGENTS#REINFORCEMENT LEARNING
AI智能体实现自主链式复制:迈向通用人工智能的新里程碑
AI智能体实现自主链式复制:迈向通用人工智能的新里程碑
#AUTONOMOUS AGENTS#CHAIN REPLICATION#REINFORCEMENT LEARNING
DeepSeek-R1 揭秘:强化学习如何开启大模型的推理“暴力美学”
DeepSeek-R1 揭秘:强化学习如何开启大模型的推理“暴力美学”
#DEEPSEEK#REINFORCEMENT LEARNING#LLM
DFPO:大模型后训练新范式,强化学习迈向泛化与鲁棒性
DFPO:大模型后训练新范式,强化学习迈向泛化与鲁棒性
#LLM ALIGNMENT#REINFORCEMENT LEARNING#DISTRIBUTIONAL RL
AI自主学习新时代:无需人类干预的五大技术前瞻
AI自主学习新时代:无需人类干预的五大技术前瞻
#AUTONOMOUS AI#SELF-SUPERVISED LEARNING#REINFORCEMENT LEARNING
快手GR4AD生成式推荐系统:广告收益飙升4.2%,服务超4亿用户
快手GR4AD生成式推荐系统:广告收益飙升4.2%,服务超4亿用户
#GENERATIVE RECOMMENDATION#REINFORCEMENT LEARNING#LAZY AUTOREGRESSIVE
雅达利CEO掀起复古游戏复兴:靠经典IP与情怀重塑版图
雅达利CEO掀起复古游戏复兴:靠经典IP与情怀重塑版图
#ATARI#REINFORCEMENT-LEARNING#GENERATIVE-GAMING
IMAgent:强化学习赋能多图视觉代理,SOTA性能刷新认知
IMAgent:强化学习赋能多图视觉代理,SOTA性能刷新认知
#AI AGENTS#REINFORCEMENT LEARNING#MULTI-MODAL VISION
OpenAI模型诡异“地精”现象揭秘:强化学习的意外副作用
OpenAI模型诡异“地精”现象揭秘:强化学习的意外副作用
#OPENAI#GPT#REINFORCEMENT LEARNING
对话OpenAI强化学习主管:从黑洞物理到o1推理模型
对话OpenAI强化学习主管:从黑洞物理到o1推理模型
#OPENAI#REINFORCEMENT-LEARNING#TEST-TIME-COMPUTE