Kayk não sei como estão suas configurações de Runtime, mas infelizmente com seu hardware você dificilmente conseguirá rodar um modelo adequadamente e, caso consiga rodar, as respostas levarão muito tempo. Digo isso por experiência própria porque antes de substituir minha GPU eu tinha uma RX 580, que é uma placa de entrada mas ainda assim com desempenho bem superior à sua placa (vide imagem de benchmark), e eu podia fazer um prompt e ir tomar um café enquanto aguardava a resposta. Hoje com uma Radeon RX6600 funciona liso.
Além disso você possui apenas 8GB de memória RAM, e como o Windows consome grande parte dos recursos do hardware, suponho que você não vá conseguir rodar um modelo com 4GB ou mais, então deverá escolher modelos bem leves para testar.
Uma alternativa seria usar uma distribuição Linux bem leve, como o Xubuntu para poder rodar um modelo um pouco mais pesado. Contudo, sua GPU/APU possui apenas 2GB de VRAM e é DDR3, portanto extremamente limitada; então, caso você consiga rodar qualquer modelo, vai ter muito mais tempo de espera do que eu tinha com a RX580. Vale mais a pena usar os chatbots online mesmo, como ChatGPT, Gemini, Claude, etc.

