본문 바로가기
잡생각/일기쓰기

성공 경험

by Thdnice 2022. 6. 18.
반응형

 머신런닝에서 강화학습의 일종인 Deep-Q Learning 이라는 게 있다. 

결국 어떤 Policy 를 가지고 어떤 행동을 할 때에, 내가 받을 최종 보상을 최대화가 되도록 네트워크를 학습하는 알고리즘인데, 이 때 딥러닝을 하면 항상 자신이 했던 최선의 값을 반복하려는 경향이 있기 때문에, 작은 확률로 일부러 <가보지 않은> 길로 가보게 하는 Trick을 쓴다.

사람도 마찬가지다.

"성공 경험" 이라는건 그야말로 휘귀하기 때문에, 어떤 사람이 한 번 성공을 경험 하고나면, 그 것을 자신의 패턴으로 삼고, 그걸 계속 반복하려는 경향이 있다. (심지어 주변 상황이 바뀔지라도), 이런 패턴이 계속 되면 <이번에 가보지 않은 길> 을 택할 가능성은 거의 없다. 

 

반응형