본문 바로가기

< 책소개,독서HAZA365>/책소개,독서HAZA-2022년

당신은 AI를 개발하게 된다, 개발자가 아니더라도 -얼리사 심프슨 로크워거

728x90

책 소개

당신은 AI를 개발하게 된다,

개발자가 아니더라도

 

- 얼리사 심프슨 로크워거 외 지음

 

 

 

AI에 대한 호기심으로 뽑아든 책이다. AI에 대한 이해를 돕기 위해 펼치긴 했는데 쉽지 않았다. AI를 개발하는 일은 끊임없이 업데이트되어야 한다. 기존의 많은 데이터를 믿고 더 이상 업데이트를 하지 않는다면 쓸모없는 것이 될지도 모르겠다. 그러기 위해 협업과 다양한 시도가 필요해 보인다. 개발까지는 아니더라도 AI에 대한 꾸준한 관심은 필요해 보인다.

 

 


 

AI는 데이터로 완성된다

 

중요한 장애물은 보행자다. 하지만 2차원 이미지 같은 센서 데이터로 보행자를 인식하도록 모델을 학습시키기는 무척 어려울 수 있다. 문제는 간단해 보인다.

 

이미지에서 보행자 주위에 상자를 그려 데이터세트에 주석(프로그램을 짠 코드 내에서 제작자의 의도와 흐름을 파악할 수 있도록 써놓은 컴퓨터는 읽지 못하는 텍스트, 코딩업무 효율을 높이며 협업할 때 유용하게 쓰인다.)을 입력하면 모델은 보행자가 어떻게 생겼는지 배울 것이다.

 

하지만 곧 복잡한 문제들이 등장한다. 보행자가 휠체어를 타고 있다면? 유아차는 어떻게 처리해야 할까? 유리나 거울에 비친 사람의 모습은 실제 사람과 어떻게 구별할 수 있을까? 버스 정류장에 붙은 포스터에 사람 실루엣이 있다면? 이렇게 생각하지 못한 것들이 혼란을 준다.

 

이 모든 가능성을 두고 처리하기 위해 데이터 주석 입력자와 소통해야 한다. 개별적인 편차를 처리하는 방법이 명확하지 않으면 일관성 없이 주석이 입력될 것이고 AI모델은 이런 상황이 발생했을 때 어떻게 처리해야 할지 파악하는 데 어려움을 겪게 된다.

 

제대로 된 데이터가 없으면 반드시 실패한다. 일단 골디락스 문제가 명확하게 결정되면 그 이후의 단계는 순조롭게 추진할 수 있다.

 

문제를 해결하기 위해 필요한 데이터를 파악하는 일도 어렵지 않다. 데이터팀이 세부사항을 파악하는 데 도움을 줄 것이다. 다만 선정된 문제가 필요한 데이터의 종류와 품질수준을 결정하게 될 것이다.

 

자율주행차의 경우라면 신호등 색깔, 회전 신호, 자전거 이용자의 수신호 등이 이런 항목에 포함될 수 있다.

 

일단 필요한 데이터가 파악되면 남은 문제는 데이터를 확보하는 일이다. 이미 회사가 데이터를 보유하고 있다면 정확한지 여부와 데이터에 정리된 주석을 검토해야 한다. 그런 다음 필요한 나머지 데이터가 어디에 있는지 찾아야 한다. 고품질의 주석 처리된 데이터를 안정적으로 확보하는 것은 프로젝트의 기본 전제 조건이다. 올바른 데이터가 없으면 무슨 수를 써도 프로젝트는 실패할 것이다.

 

 

 

왜 빅테크 기업은 마르지 않는 데이터에 집착하는가

 

AI모델은 꾸준히 학습되어야 한다. 그렇지 않으면 모델을 둘러싼 현실이 변함에 따라 시간이 갈수록 모델의 정확도가 떨어질 것이다.

 

데이터를 지속해서 사용할 수 있는지 확인하는 것은 중요하다. 최근에 한 산업 분석가가 이런 질문을 했다.

 

“5년 후에도 학습 데이터가 지금처럼 많이 필요할까요? AI모델들이 이미 다 학습되어 있을 텐데요. 제생각에는 5년 내내 완전히 같은 사용 사례를 위해 새로운 학습 데이터를 생성할 회사는 없을 것 같거든요."

 

이 분석가의 말이야말로 완전히 틀렸다. 이런 일은 여전히 일어나고 있고 그것도 매우 흔하다.

 

아마존이나 구글, 애플 같은 빅테크 기업은 세계 최고 수준의 머신러닝 과학자들을 고용하고 이 분야에서 가장 압도적인 기술을 보유하고 있다. 또한 지금 이 순간에도 타 기업은 접근할 수 없는 마르지 않는 고품질 데이터가 생성되고 있으며 쉽게 쓸 수 있다. 이 모든 윤택한 환경에도 불구하고 이들 기업은 해마다 데이터 주석 작업에 수억 달러를 지출한다.

 

진화하는 언어의 의미를 최신 상태로 유지하여 콘텐츠를 관리하기 위해서다. 오늘날의 사회적 금기는 몇 년 전 모델이 처음 만들어졌을 때와 다르다.

 

꾸준히 주석을 관리하고 모델을 재학습하지 않으면 대중의 생각과 기준이 바뀜에 따라 점점 더 많은 유해 콘텐츠를 허용하게 될 것이다

 

학습 데이터가 현실 상황에서 발생할 수 있는 모든 사용 사례를 포함하는지 확인하는 것은 AI모델 성능에 절대적으로 중요한 과정이다. 사용자의 모든 사용 사례를 고려할 수 없기 때문에 월마트의 사례처럼 모델이 처리할 수 있는 범위를 인위적으로 제한하지 않는지 검토해야 한다.

 

무엇을 모르는지 알 수 없겠지만 실제 환경에서 어떤 일이 일어날지 여러 각도로 예상하려고 노력해야 한다. 그리고 가정을 신뢰하지 말아야 한다.

 

접근할 수 있는 데이터를 기반으로 가정을 검증하고 현장에 있는 모델을 모니터하여 특이 케이스를 식별해야 한다.

 

AI 모델을 연구하는 데이터 과학자는 그들이 만든 AI모델을 사용할 일상적인 고객의 활동에서 멀리 떨어져 있다. 따라서 프로젝트가 시작되면 해결하려는 비즈니스 문제와 개인적 으로 가까워지는 기회를 만들어야 한다.

 

보사노바 로보틱스는 데이터 과학팀원들을 월마트 매장에 보내 통로를 직접 걸어보게 했다. 현상을 제대로 이해하고 있는지 확인하기 전에 사용자 과학자들이 온몸으로 문제를 탐색하도록 해보는 것이다.

 

실제로 해당 분야에서 일하고 있는 사람들에게 학습 데이터의 고유한 특성에 관해 물어보고 AI 개발 현장의 생각과 얼마나 동떨어져 있는지도 반드시 확인하자.

 

 

 

데이터 파이프라인 구축하기

데이터 파이프라인을 개발할 때 가용성, 적용 범위, 출처, 품질, 보안을 모두 고려해야 한다. 파이프라인의 모든 단계는 일관되고 반복 가능하며 정확해야 한다. 정교하게 계획해 문서화시키고 반복하며 활용 가능한 파이프라인은 장기적으로 현

장에서 AI모델이 성공하는 데 큰 도움이 될 것이다.

 

AI를 처음 접하는 사람들은 모델을 구축하는 과정이 가장 어려울 거라고 생각한다. 하지만 AI모델 구축보다 모델에 쓸 데이터를 준비하고 파이프라인을 구축하는 과정에 훨씬 더 많은 시간과 자원, 에너지와 기술이 투입된다. 반복 가능하고 확장할 수 있는 파이프라인이 없으면 최고로 설계된 모델이 라도 실전에서 사용될 수 없다.

 

데이터는 한 번 쓰고 끝낼 수 있는 문제가 아니다. 데이터 파이프라인을 구축하여 운영하고, AI모델이 사용되고 있는 한 양질의 데이터를 계속 공급해야 한다. 머신러닝 시스템 학습에 사용할 올바른 데이터를 구하는 일을 만족스럽게 해결했으면 이제 이 일을 실제로 해낼 팀을 조직해야 한다.

 

당신은 AI를 개발하게 된다, 개발자가 아니더라도 -얼리사 심프슨 로크워거

 

 

 

 

#책속글귀 #독서 #책 #책읽기

#책소개 #책추천 #독서노트 #AI

#당신은AI를개발하게된다,개발자가아니더라도

#좋은글 #좋은글귀

#독한여자 #주부독서연구소

728x90
반응형