Avaliação Empírica de Grandes Modelos de Linguagem de Pesos Abertos para Tradução Automática Local em Hardware de Consumo

Mario Jorge Lira de Lima Junior; Joethe Moraes de Carvalho

doi:https://doi.org/10.22533/at.ed.3941226080111

Avaliação Empírica de Grandes Modelos de Linguagem de Pesos Abertos para Tradução Automática Local em Hardware de Consumo

Este trabalho apresenta uma avaliação empírica de Grandes Modelos de Linguagem de pesos abertos aplicados à tradução automática multilíngue em ambiente local, sob restrições de hardware de consumo. O objetivo do estudo é analisar o trade-off entre qualidade de tradução e eficiência computacional, considerando métricas automáticas de avaliação, consumo de memória de vídeo e vazão de geração. Para isso, foram avaliados os modelos Llama-3.1 8B, Gemma-2 9B e Qwen-2.5 7B, executados por meio do motor Ollama em versões quantizadas em 4 bits, utilizando uma GPU NVIDIA RTX 4060 com 8 GB de VRAM. A avaliação foi conduzida com uma amostra determinística de 200 sentenças do dataset FLORES-200, contemplando os pares inglês–português, inglês–espanhol, coreano–português e coreano–espanhol. A qualidade das traduções foi mensurada por meio das métricas SacreBLEU e COMET, enquanto o desempenho computacional foi analisado com base no pico observado de VRAM e na vazão média em tokens por segundo. Os resultados indicaram que o Gemma-2 obteve a melhor qualidade geral, mas com maior consumo de VRAM e menor vazão. O Llama-3.1 apresentou o melhor equilíbrio entre qualidade e eficiência, enquanto o Qwen-2.5 demonstrou desempenho funcional, porém inferior nas métricas de qualidade. Observou-se ainda divergência relevante entre SacreBLEU e COMET nos pares originados do coreano, sugerindo que métricas baseadas em n-gramas podem subestimar traduções semanticamente adequadas, mas lexicalmente distintas da referência. Conclui-se que a execução local de LLMs para tradução automática é tecnicamente viável em hardware de consumo, desde que a escolha do modelo considere simultaneamente qualidade linguística, vazão e limites físicos da infraestrutura.

Ler mais

Avaliação Empírica de Grandes Modelos de Linguagem de Pesos Abertos para Tradução Automática Local em Hardware de Consumo

DOI: https://doi.org/10.22533/at.ed.3941226080111
Palavras-chave: Grandes Modelos de Linguagem. Tradução automática. Modelos de pesos abertos. COMET. SacreBLEU. Hardware de consumo.
Keywords: -
Abstract: -

Mario Jorge Lira de Lima Junior
Joethe Moraes de Carvalho

Download

Artigo

Baixe agora

Avaliação Empírica de Grandes Modelos de Linguagem de Pesos Abertos para Tradução Automática Local em Hardware de Consumo

Avaliação Empírica de Grandes Modelos de Linguagem de Pesos Abertos para Tradução Automática Local em Hardware de Consumo