Giraak Blog - AI / Systems / High-Performance Computing / Reinforcement Learning

终身强化学习中的灾难性遗忘：从 LAICA 到 Cal-LAICA

2025-11-20

Reinforcement Learning

Lifelong RL

/

Catastrophic Forgetting

/

LAICA

/

Cal-LAICA

/

EWC

/

GEM

/

PackNet

/

Continual Learning

系统梳理 LAICA 与 Cal-LAICA 的核心思想，详解 L-MDP 框架下的策略分解机制，并对比 EWC、GEM、PackNet 等灾难性遗忘缓解方法。

1193 字

|

6 分钟

DQN 入门实践：用 PyTorch 从零实现深度 Q 网络

2025-06-20

Reinforcement Learning

DQN

/

Reinforcement Learning

/

PyTorch

/

Gymnasium

/

Tutorial

面向强化学习初学者的 DQN 完整教程，从环境搭建、神经网络构建到经验回放和 ε-贪婪策略，用 PyTorch 逐步实现。

788 字

|

4 分钟

KTransformers 多并发架构深度分析：与 vLLM / SGLang 的对比

2025-05-15

LLM Inference

KTransformers

/

LLM Inference

/

vLLM

/

SGLang

/

DeepSeek

/

HPC

深入剖析 KTransformers v0.2.4 多并发架构的三层设计，分析 Prefill 并行度瓶颈与 KV Cache 管理问题，并与 vLLM、SGLang 进行全面对比。

877 字

|

4 分钟

LLM 基础设施安全：从 OWASP Top 10 到 CVE 漏洞实战

2025-05-02

Security

LLM Security

/

OWASP

/

CVE

/

Ollama

/

OpenWebUI

/

Cybersecurity

系统梳理 LLM 基础设施安全学习的三个阶段：Web/API 安全基础、CVE 漏洞复现（Ollama & OpenWebUI）、容器与模型安全加固，附带完整工具链与实战路径。

1764 字

|

9 分钟

MQL5 算法交易入门：用 Python 构建你的第一个交易机器人

2025-04-10

Finance

MQL5

/

Algorithmic Trading

/

Python

/

MetaTrader

/

Quant

从零开始学习 MetaTrader 5 算法交易，详解 MT5 Python API 的行情获取、账户管理、订单操作与 EA 框架，并给出完整的交易机器人模板。

1887 字

|

9 分钟

DeepSeek-R1 在 Tesla T4 上的推理优化实践

2025-03-28

Systems

DeepSeek

/

T4

/

GPU Optimization

/

Quantization

/

llama.cpp

/

HPC

探索在 NVIDIA Tesla T4 (Turing 架构) GPU 上优化 DeepSeek-R1 推理的七种方法，涵盖量化、剪枝、蒸馏、llama.cpp、内核融合与 CPU-GPU 混合推理。

717 字

|

4 分钟