终身强化学习中的灾难性遗忘:从 LAICA 到 Cal-LAICA
系统梳理 LAICA 与 Cal-LAICA 的核心思想,详解 L-MDP 框架下的策略分解机制,并对比 EWC、GEM、PackNet 等灾难性遗忘缓解方法。
1193 字
|
6 分钟
Cover Image of the Post
DQN 入门实践:用 PyTorch 从零实现深度 Q 网络
面向强化学习初学者的 DQN 完整教程,从环境搭建、神经网络构建到经验回放和 ε-贪婪策略,用 PyTorch 逐步实现。
788 字
|
4 分钟
KTransformers 多并发架构深度分析:与 vLLM / SGLang 的对比
深入剖析 KTransformers v0.2.4 多并发架构的三层设计,分析 Prefill 并行度瓶颈与 KV Cache 管理问题,并与 vLLM、SGLang 进行全面对比。
877 字
|
4 分钟
Cover Image of the Post
LLM 基础设施安全:从 OWASP Top 10 到 CVE 漏洞实战
系统梳理 LLM 基础设施安全学习的三个阶段:Web/API 安全基础、CVE 漏洞复现(Ollama & OpenWebUI)、容器与模型安全加固,附带完整工具链与实战路径。
1764 字
|
9 分钟
Cover Image of the Post
MQL5 算法交易入门:用 Python 构建你的第一个交易机器人
从零开始学习 MetaTrader 5 算法交易,详解 MT5 Python API 的行情获取、账户管理、订单操作与 EA 框架,并给出完整的交易机器人模板。
1887 字
|
9 分钟
Cover Image of the Post
DeepSeek-R1 在 Tesla T4 上的推理优化实践
探索在 NVIDIA Tesla T4 (Turing 架构) GPU 上优化 DeepSeek-R1 推理的七种方法,涵盖量化、剪枝、蒸馏、llama.cpp、内核融合与 CPU-GPU 混合推理。
717 字
|
4 分钟