반응형
머신런닝에서 강화학습의 일종인 Deep-Q Learning 이라는 게 있다.
결국 어떤 Policy 를 가지고 어떤 행동을 할 때에, 내가 받을 최종 보상을 최대화가 되도록 네트워크를 학습하는 알고리즘인데, 이 때 딥러닝을 하면 항상 자신이 했던 최선의 값을 반복하려는 경향이 있기 때문에, 작은 확률로 일부러 <가보지 않은> 길로 가보게 하는 Trick을 쓴다.
사람도 마찬가지다.
"성공 경험" 이라는건 그야말로 휘귀하기 때문에, 어떤 사람이 한 번 성공을 경험 하고나면, 그 것을 자신의 패턴으로 삼고, 그걸 계속 반복하려는 경향이 있다. (심지어 주변 상황이 바뀔지라도), 이런 패턴이 계속 되면 <이번에 가보지 않은 길> 을 택할 가능성은 거의 없다.
반응형
'잡생각/일기쓰기' 카테고리의 다른 글
근황 (0) | 2023.10.02 |
---|---|
미국 CPI 8.6%, 금리인상 75bp (1) | 2022.06.21 |
서울시 재보궐 선거에 대한 단상 (0) | 2021.04.18 |
컴퓨터에 3.5mm 이어폰 꼭지가 단자에 박힌체로 부러진 경우 대처법 (3) | 2019.08.26 |
[RIP] 오퍼튜니티 (0) | 2019.02.17 |