StepPRM-RTL ਨਾਲ ਬਿਹਤਰ ਹਾਰਡਵੇਅਰ ਕੋਡ

LLMs ਕੋਡ ਲਿਖਦੇ ਹਨ। Verilog ਅਤੇ VHDL ਵਰਗੀਆਂ ਹਾਰਡਵੇਅਰ ਭਾਸ਼ਾਵਾਂ ਔਖੀਆਂ ਹਨ। ਇੱਕ ਛੋਟੀ ਜਿਹੀ ਗਲਤੀ ਪੂਰੇ ਡਿਜ਼ਾਈਨ ਨੂੰ ਖਰਾਬ ਕਰ ਸਕਦੀ ਹੈ।

ਜ਼ਿਆਦਾਤਰ ਮਾਡਲਾਂ ਨੂੰ ਸਿਰਫ਼ ਅੰਤ ਵਿੱਚ ਸਕੋਰ ਮਿਲਦਾ ਹੈ। ਇਹ ਫੀਡਬੈਕ ਬਹੁਤ ਘੱਟ ਹੈ। ਇਹ ਤੁਹਾਨੂੰ ਦੱਸਦਾ ਹੈ ਕਿ ਡਿਜ਼ਾਈਨ ਪਾਸ ਹੋਇਆ ਜਾਂ ਨਹੀਂ, ਪਰ ਇਹ ਨਹੀਂ ਦੱਸਦਾ ਕਿ ਤੁਸੀਂ ਕਿੱਥੇ ਅਸਫਲ ਰਹੇ।

StepPRM-RTL ਇਸ ਨੂੰ ਠੀਕ ਕਰਦਾ ਹੈ। ਇਹ ਹਾਰਡਵੇਅਰ ਡਿਜ਼ਾਈਨ ਨੂੰ ਕਦਮਾਂ ਦੀ ਇੱਕ ਲੜੀ ਵਜੋਂ ਮੰਨਦਾ ਹੈ।

ਸਿਸਟਮ ਚਾਰ ਹਿੱਸਿਆਂ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ:

  • Stepwise paths: ਮਾਡਲ ਡਿਜ਼ਾਈਨ ਦੇ ਕਦਮਾਂ ਦਾ ਇੱਕ ਕ੍ਰਮ ਸਿੱਖਦਾ ਹੈ।
  • Process rewards: ਮਾਡਲ ਹਰੇਕ ਵਿਚਕਾਰਲੇ ਕਦਮ ਨੂੰ ਸਕੋਰ ਦਿੰਦਾ ਹੈ।
  • Search: ਇਹ ਵੱਖ-ਵੱਖ ਤਰਕ ਮਾਰਗਾਂ ਦੀ ਖੋਜ ਕਰਦਾ ਹੈ।
  • Retrieval: ਇਹ ਪ੍ਰਮਾਣਿਤ ਡਿਜ਼ਾਈਨ ਪੈਟਰਨਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ।

ਇਹ ਵਿਧੀ ਸ਼ੁੱਧਤਾ ਨੂੰ 10% ਤੱਕ ਸੁਧਾਰਦੀ ਹੈ। ਮਾਡਲ ਬਿਹਤਰ ਫੈਸਲੇ ਲੈਂਦਾ ਹੈ। ਇਹ ਕਿਸੇ ਕਿਸਮਤ ਵਾਲੇ ਪਹਿਲੇ ਡਰਾਫਟ 'ਤੇ ਨਿਰਭਰ ਨਹੀਂ ਰਹਿੰਦਾ।

ਇਹ ਪਹੁੰਚ ਅਸਲ ਇੰਜੀਨੀਅਰਾਂ ਦੀ ਨਕਲ ਕਰਦੀ ਹੈ। ਇੰਜੀਨੀਅਰ ਡਿਜ਼ਾਈਨ ਰਾਹੀਂ ਤਰਕ ਕਰਦੇ ਹਨ। ਉਹ ਅਨੁਮਾਨਾਂ ਦੀ ਜਾਂਚ ਕਰਦੇ ਹਨ। ਉਹ ਲੌਜਿਕ ਨੂੰ ਦੁਬਾਰਾ ਸੋਧਦੇ ਹਨ।

StepPRM-RTL LLMs ਨੂੰ ਇਨਸਾਨਾਂ ਵਾਂਗ ਕੰਮ ਕਰਨ ਦਾ ਤਰੀਕਾ ਦਿੰਦਾ ਹੈ।

ਸਰੋਤ: https://dev.to/prabhakar_chaudhary_7afe4/how-stepprm-rtl-uses-stepwise-rewards-to-improve-verilog-and-vhdl-generation-596b

ਵਿਕਲਪਿਕ ਲਰਨਿੰਗ ਕਮਿਊਨਿਟੀ: https://t.me/GyaanSetuAi