基于DP动态规划的全局最优能量管理策略,程序为MATLAB m编程完成,大约700行左右。 1.车辆构型为功率分流型(ECVT),类似丰田Pruis构型。 2.电池SOC为电量维持型策略。 3.全程序包含逆向迭代和正向寻优过程。 4.DP作为基于优化的整车能量管理策略的基础,对后续ECMS能量管理策略和MPC能量管理策略的开发学习有着重要作用,可以在此程序基础上进行更改和延伸。
for k = N-1:-1:1 % 逆向时间轴倒推 for i = 1:length(SOC_grid) % 遍历所有SOC离散点 [J_opt(k,i), u_opt(k,i)] = min( fuel_cost(k,:,i) + J_opt_temp ); % 贝尔曼方程落地 end end这段代码就是整个逆向迭代的灵魂。k从倒数第二个时刻往前推,i遍历SOC的离散网格。fuelcost这个三维数组存放着不同时刻、不同控制量、不同SOC下的燃油消耗量,Jopt_temp则是下一时刻的最优成本矩阵。这个min操作实际上就是在做状态转移时的最优决策选择。
功率分流构型有个特点——发动机转速和车轮转速是耦合的。在代码里体现这个关系的函数长这样:
function [w_eng, T_eng] = engine_map(u, w_drive) % u是控制变量(动力分配比) % w_drive当前驱动轴转速 w_eng = (u.*gear_ratio + (1-u).*sun_gear_ratio) .* w_drive; T_eng = interp2(engine_speed_map, engine_torque_map, u); % 查表获取扭矩 end这里的gearratio和sungear_ratio对应行星齿轮组的齿比参数。控制变量u在0-1之间变化时,发动机转速会在纯电动模式到燃油直驱模式之间平滑过渡,这个特性让ECVT的燃油经济性优势得以发挥。
SOC维持策略的处理很讲究。在代价函数里我们加了这么个惩罚项:
delta_SOC = (SOC_next - SOC_ref)*100; % SOC百分比偏差 penalty = beta * delta_SOC^2; % 二次型惩罚系数这个beta参数得反复调试——太小了SOC会漂移,太大了容易陷入局部最优。实际跑程序时发现当beta取0.5~1.5时,SOC基本能维持在±2%的波动范围内。
正向寻优过程其实是个状态追踪的游戏:
SOC_trace(1) = SOC_initial; for k = 1:N-1 idx = find_nearest(SOC_grid, SOC_trace(k)); % 定位当前SOC所在网格 u_actual(k) = u_opt(k, idx); % 提取最优控制量 SOC_trace(k+1) = SOC_trace(k) + delta_SOC(u_actual(k)); % 状态转移 endfind_nearest这个函数暗藏玄机——直接四舍五入会引入累计误差,后来改成线性插值后轨迹平滑多了。这里注意SOC的离散步长不能太大,0.5%一个网格点比较合适,否则正向追踪时会"踩空"。
这套700行的代码其实是个万能框架。想改写成ECMS策略?把逆向迭代改成等效燃油消耗计算就行;要做MPC的话,保留状态转移函数,把全局优化改成滚动时域优化。最近试着在电池模型里加入温度参数,结果发现SOC维持效果提升了3%,果然动态规划这玩意儿就像乐高积木,能玩的花样多着呢。