PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO/CCET

Banca de DEFESA: RODRIGO MENDES GARCÊS

2021-10-18 19:05:45.532

Uma banca de DEFESA de MESTRADO foi cadastrada pelo programa.
DISCENTE: RODRIGO MENDES GARCÊS
DATA: 22/10/2021
HORA: 14:00
LOCAL: Vídeoconferência
TÍTULO: SISTEMA DE APROVEITAMENTO DE APRENDIZADO DE ESTADOS EM APRENDIZADO POR REFORÇO
PALAVRAS-CHAVES: Aprendizado por reforço. Q-learning. Aprendizado não supervisionado.
PÁGINAS: 39
GRANDE ÁREA: Ciências Exatas e da Terra
ÁREA: Ciência da Computação
RESUMO: Os sistemas autônomos podem ser treinados de três maneiras distintas, utilizando aprendizado supervisionado, não supervisionado ou por reforço. Um dos algoritmos de aprendizado por reforço é o q-learning, abordado neste trabalho. Esta técnica é bastante eficiente quando se deseja aprender uma tarefa simples, mas torna-se exponencialmente menos eficiente à medida em que se eleva a dificuldade do aprendizado. Na estratégia de treinamento normal do q-learning, todos os estados são treinados e devido à arquitetura do algoritmo, este tem dificuldade de funcionar em problemas reais, devido ao crescimento exponencial do espaço de busca. Isto aumenta a chance de que o aprendizado obtido se perca na atualização dos pesos, ao mesmo tempo que diminui a chance de um episódio ser concluído com sucesso. Tal problema levou ao surgimento de várias técnicas, a fim de reter o aprendizado durante o processo de treinamento e diminuir o tempo deste treinamento, aumentando assim a eficiência do treinamento. Este trabalho apresenta uma nova estratégia de treinamento para o algoritmo de aprendizado por reforço q-learning, que consiste em dividir o treinamento em duas etapas distintas, onde na primeira etapa uma parte dos estados é colocada em uma lista negra e não é treinada. Em seguida, estima-se a melhor ação dos estados pertencentes à lista negra utilizando a melhor ação dos seus vizinhos imediatos, e por fim, a segunda etapa de treinamento, onde todos os estados são treinados. Os resultados obtidos validam esta nova abordagem de treinamento como uma alternativa viável na redução do tempo de treinamento, sem reduzir a capacidade de aprendizado do agente treinado.
MEMBROS DA BANCA:
Interno - 1091306 - ALEXANDRE CESAR MUNIZ DE OLIVEIRA
Presidente - 2044484 - AREOLINO DE ALMEIDA NETO
Externo à Instituição - CAIRO LÚCIO NASCIMENTO JÚNIOR - ITA

PPGCC/CCET

???idiomasInicio???

Banca de DEFESA: RODRIGO MENDES GARCÊS