تحليل خوارزمية إدارة الطاقة الكهربائية في المنازل
في السنوات الأخيرة، كانت هناك محاولات عديدة لتوفير الطاقة من خلال تصور مقدار استهلاك الطاقة في المنزل والتحكم في المعدات المستهلكة للطاقة مثل مكيفات الهواء، بحيث تستخدم أنظمة إدارة الطاقة المنزلية (HEMS) لهذا الغرض، وبشكل عام تتعامل أنظمة (HEMS) مع الطلب على الطاقة وتتحكم في كمية الطاقة التي يتم توفيرها من المعدات الكهربائية.
على سبيل المثال أنظمة تخزين الطاقة (ESS) والمولدات الكهربائية صغيرة الحجم والطلب على الطاقة الذي يمكن التحكم فيه (مثل أنظمة التدفئة والتهوية وتكييف الهواء (HVAC) والمياه الكهربائية السخانات) والطلب على الطاقة غير القابلة للتحويل (مثل الإضاءة وأجهزة التلفزيون)، حيث يجب أن يلبي الطلب على الطاقة غير القابلة للتحويل الطلب المطلوب بالكامل.
وفي المقابل؛ فإنه يمكن لأنظمة التدفئة والتهوية وتكييف الهواء (HVAC) ضبط الطلب على الطاقة الذي يمكن التحكم فيه عن طريق التحكم في درجة حرارة الغرفة، كما أنه تم تطوير العديد من خوارزميات التحسين للتحكم في درجة الحرارة، وذلك وفقاً للغرض والقيود الخاصة بالتحسين.
أيضاً تم استخدام التعلم المعزز لخوارزميات إدارة الطاقة الخالية من النماذج في الأعمال السابقة، كذلك اقترح مخططاً لإدارة الطاقة يقلل من تكاليف الطاقة وتكاليف عدم رضا المستخدم عن الغسالات وأحمال التدفئة والتهوية وتكييف الهواء باستخدام نموذج تنبؤ بالأسعار يعتمد على الشبكات العصبية الاصطناعية وتعلم التعزيز متعدد العوامل.
وفيما بعد اقترح طريقة استجابة لطلب السكن بناءً على تعلم التعزيز الجماعي لتقليل تكاليف الطاقة مع مراعاة نطاق درجة الحرارة ليشمل تدرجاً حتمياً عميقاً للسياسة (DDPG)، كما أن هناك خوارزمية لإدارة الطاقة قائمة على تقليل تكاليف الطاقة مع الحفاظ على درجة حرارة الغرفة المريحة، ومع ذلك في (HEMS)، تصبح مساحة العمل هائلة لأن العديد من الكائنات مثل (ESS) وأنظمة (HVAC) وسخانات المياه الكهربائية يتم التحكم فيها في نفس الوقت.
لذلك؛ فإنه قد يكون من الصعب تكرار تجربة نفس الحالة مع الإجراء بسبب المساحة الهائلة للعمل بين الدولة، وعلاوة على ذلك من الصعب التعلم بشكل كامل من تجربة لمرة واحدة بسبب الانتشار البطيء للمكافآت المتأخرة في أساليب التعلم التقليدية ذات التعزيز العميق.
نموذج النظام وصياغة المشكلة
يوضح الشكل التالي (1) بيئة (HEMS) المستخدمة في هذه الدراسة، بحيث تستخدم (HEMS) التي تم التحقيق فيها في هذه الدراسة مولد طاقة متجددة يستخدم الألواح الكهروضوئية والطلب على الطاقة غير القابل للتحويل والطلب على الطاقة الذي يمكن التحكم فيه من نظام (HVAC) وبطارية تخزين.
في كل خطوة ومن (1) ساعة؛ فإنه يتم تحديد طاقة شحن وتفريغ بطارية التخزين وطاقة الإدخال إلى نظام (HVAC) من إخراج الطاقة المتجددة والطلب على الطاقة غير القابلة للتحويل ومستوى البطارية المتبقي ودرجة الحرارة الخارجية ودرجة حرارة الغرفة والوقت الحالي، كذلك في نظام التدفئة والتهوية وتكييف الهواء (HVAC)؛ فإنه يتم تحديد مقدار تغير درجة الحرارة في خطوة واحدة بما يتناسب مع طاقة الإدخال.
وفي هذه الدراسة، نسمح بتغيير المبلغ الإجمالي للطلب على الطاقة الذي يمكن التحكم فيه، بحيث تهدف (HEMS) المستخدمة في هذه الدراسة إلى تقليل تكاليف الطاقة في ظل قيود الحفاظ على درجة حرارة الغرفة المريحة، وفي هذا القسم نقوم بتفصيل النماذج المستخدمة لبطارية التخزين ونظام التدفئة والتهوية وتكييف الهواء (HVAC) وصياغة مشاكل اتخاذ القرار المتسلسلة كعمليات قرار ماركوف (MDPs).
نموذج النظام: يتم إعطاء نموذج ديناميكيات بطارية التخزين بواسطة
حيث تشير (Bt) إلى مستوى البطارية في بداية الخطوة (t)، كما تشير [(ηc∈ (0،1] إلى كفاءة الشحن، وكذلك [(ηd∈ (0،1] تشير إلى كفاءة التفريغ وتشير (ct≥0) إلى قوة شحن (ESS) في الخطوة (t) و (dt≤0) هي طاقة التفريغ من (ESS) في الخطوة (t)، ونظراً لعدم شحن بطارية التخزين وتفريغها في نفس الوقت، توجد علاقة معطاة بواسطة المعادلة التالية بين (ct) و (dt).
بالإضافة إلى ذلك، تتمتع بطارية التخزين بسعة تخزين قصوى تبلغ (Bmax) وأدنى سعة تخزينية تبلغ (Bmin)، لذلك يتم التحكم في (Bt) من الداخل بواسطة:
نظام إدارة الطاقة القائم على (ExDDPG)
في (DDPG)، يتم حفظ انتقالات الحالة في المخزن المؤقت لإعادة التشغيل، والتي تُستخدم لاحقاً لتدريب الشبكة العصبية، ومع ذلك يمكن حذف التجربة من المخزن المؤقت لإعادة العرض قبل نشر المكافآت المتأخرة بالكامل، كما أن هذا لأنه يجب تحديث قيمة (Q) بانتظام لنشر المكافآت المتأخرة.
وعلاوة على ذلك، عندما يتم التحكم في مقدار الشحن والتفريغ لبطارية التخزين والطاقة الموفرة لنظام التدفئة والتهوية وتكييف الهواء (HVAC) من خلال القيم المستمرة بواسطة (DDPG)، بحيث لا يتم دائماً حفظ انتقالات الحالة مرة واحدة بشكل متكرر في المخزن المؤقت لإعادة التشغيل بعد ذلك منذ إجراء الحالة تصبح المساحة كبيرة للغاية، لذلك من الضروري أن تتعلم بكفاءة تحولات الحالة التي يتم اختبارها.
في هذا القسم، نقترح خوارزمية إدارة الطاقة القائمة على (DDPG -ExDDPG) الموجهة نحو الاستغلال، و في هذه الخوارزمية عندما تعود الخطوات المتعددة حتى نهاية اليوم (أي الساعة 24) تكون أعلى من النتائج بخطوة واحدة، كما يتم استخدام العوائد متعددة الخطوات للتعلم، لذلك نهدف إلى التعرف بقوة على التجارب النادرة المكتسبة من العائدات المرتفعة في ظل انتقالات الحالة حتى الساعة (24).
وأخيراً؛ فإنه من الصعب تحقيق قانون التحكم الأمثل، وذلك بسبب عدم اليقين المتعلق بالطلب على الطاقة وإمدادات الطاقة من المعدات الكهربائية، بحيث تم استخدام التعلم المعزز العميق لمعالجة مشاكل تحسين الطاقة للبيئات المنزلية، ومع ذلك في (HEMS) يتم التحكم في العديد من المكونات مثل أنظمة التدفئة والتهوية وتكييف الهواء (HVAC) وبطاريات التخزين وسخانات المياه الكهربائية في وقت واحد.
وبالتالي، تصبح مساحة العمل كبيرة للغاي، لذلك قد لا يكون من المجدي التعلم الكامل للتجربة النادرة باستخدام أساليب التعلم التقليدية المعززة العميقة بسبب الحجم الكبير لمساحة عمل الدولة والانتشار البطيء للمكافآت المتأخرة، في هذه الدراسة؛ فإنه تم اقتراح خوارزمية لإدارة الطاقة تستخدم خوارزمية الاستهداف المزدوج لتعلم بقوة تجربة الحصول على عوائد عالية باستخدام الانتشار السريع للمكافآت المتأخرة من خلال العوائد متعددة الخطوات.
كذلك يتم تطبيق خوارزمية إدارة الطاقة الكهربائية المقترحة على تجربة تعلم (HEMS) للتحكم في بطارية تخزين ونظام (HVAC)، كما ويتم مقارنة أدائها بأداء نظام إدارة الطاقة القائم على التدرج في السياسة الحتمية العميقة، ونتيجة لذلك تم التأكيد على أن الطريقة المقترحة يمكن أن تقلل عدد الساعات التي تنحرف عن نطاق درجة الحرارة المريحة بنحو (17٪) مقارنة بالطريقة التقليدية.