시사정보 큐레이션/ICT·녹색·BT·NT外

[스크랩] 빅데이터시대 `인터넷과 대화`를 꿈꾸다

배세태 2013. 6. 21. 13:54
 

 

 

빅데이터 시대 '인터넷과 대화'를 꿈꾸다

구글 검색의 혁신을 가져 온 '페이지랭크'

 

 

 

친구와 오랜만에 영화를 보고 맛있는 저녁을 먹기로 했다.  무슨 영화를 볼까? 어느 극장에서 볼까? 영화를 보고 어디에서 밥을 먹을까? 인터넷에 접속해 우선 개봉 영화부터 찾아본다. 어떤 장르를 볼까? 어렵사리 로맨스 장르 영화와 극장을 정하고 이번엔 저녁 먹을 곳을 찾아본다. 근처 다양한 음식점이 인터넷에 소개됐지만 딱히 구미를 당기는 메뉴가 없다.


이럴때 ‘로맨스 영화 보고 난 후 먹으면 좋은 음식은?’ 이라는 문구로 검색할 수 있다면 얼마나 좋을까? 아직 완벽하다고 보기에는 이르지만 세계 최고의 검색 기업 구글은 이런 검색 서비스를 목표로 차근차근 움직이고 있다.


그중심에는 현재의 구글을 있게 한 검색 혁신 방법인 ‘페이지랭크’가 있다.

 

 

▲ 구글 직원들 사진으로 꾸며진 회사 로고

 

 

인터넷과 검색, 어떻게 구현될까?


빅데이터… 신문에 자주 나오는 이 말은 무슨 의미일까? 뜻으로만 보자면 아주 큰 데이터라는 말인데 요즘 자주 맞닥뜨리는 말이다. 빅데이터와 검색은 어떤 관계일까? 또 구글의 검색 혁신 기능인 ‘페이지랭크’는 어떻게 구현되는 것일까?


질문에 대한 답을 찾아가기 전에 우선 인터넷과 검색부터 살펴보자. 인터넷을 이용한다는 의미는 수많은 문서들(문서, 사진, 동영상 등 정보가 담긴 데이터)이 저장된 컴퓨터(서버)에서 데이터 통신 네트워크를 통해 필요한 정보를 끄집어내 활용한다는 것이다. 이 문서들 중에서 우리한테 필요한 문서에 담긴 정보만 골라내 보여주는 것이 바로 검색이다.


구글을 예로 들어 보자. 구글 검색창에 키워드를 입력하면 해당 검색어는 인터넷 회선을 타고 세계에 흩어져 있는 구글의 데이터센터(방대한 양의 자료와 파일이 오고가는 서버와 저장장치를 한데 모은 곳) 중 한곳에 도착한다.

 

그 곳에서 구글이 미리 수집해 놓은 해당 검색어가 들어있는 자료와 비교해 일치하는 내용을 ‘크롤링’한다. 크롤링은 수많은 컴퓨터에 흩어져 있는 문서를 수집, 검색 대상의 색인(인덱스, 책으로 따지면 목차 같은 것)으로 포함시키는 기술이다.

 

웹에 올리는 문서에 robot.txt 파일을 만들어 놓으면 구글의 크롤링 소프트웨어가 웹문서에 접근해 파일을 읽어낸다. 이렇게 생성된 구글 색인의 데이터 용량을 따져 보면 1억 기가바이트(Gb)가 넘는다. 요즘 컴퓨터 하드디스크 용량이 보통 500 기가바이트 수준이니 구글 색인의 데이터 규모가 어느 정도인지 대략 감이 온다.

 

 

▲ 본사 앞 가든에서 자유롭게 토론하고 있는 구글 직원들

 

 


빅데이터와 페이지랭크, 콕 집어내는 정보


구글 색인에 포함되지 않는 데이터들까지 고려하면 인터넷을 통해 왔다갔다 할 수 있는 데이터 용량은 그 규모를 짐작하기 어렵다. 어마어마한 용량의 문서가 지금도 웹에 올라가고 있기 때문이다. 이렇게 규모가 큰 빅데이터 시대에 검색은 ‘서울에서 김서방을 찾는’ 우를 범하지 않기 위해 꼭 필요하다.

 

문제는 어떤 문서와 어떤 정보가 나에게 꼭 필요한 것이냐를 산정하는 것. 구글은 ‘페이지랭크’라는 획기적인 방식을 개발해 세계적인 검색 기업으로 자리 매김했다. 어떤 웹사이트를 다른 사이트가 많이 언급할수록 좋은 정보를 지닌 사이트라고 가정하고, 그런 언급이 많은 사이트를 검색 결과 상단에 노출하는 수학적 연산 방법이 바로 ‘페이지랭크’다.

 

이렇게 수집된 웹문서를 색인처럼 만들고 각 색인이 포함된 문서를 200여개 기준으로 다시 컴퓨터 연산과정을 거친다. 콘텐츠의 최신성, 웹문서에 포함된 키워드, 연결된 사용자가 추천한 검색 결과 등이 그 기준이다. 검색 결과는 다시 인터넷 회선을 타고 검색 결과 페이지에 뜬다.

 

 

▲ 구글 페이지랭크 모식도 (출처_위키미디어)

 

 

진화하는 검색기능


다시 처음으로 돌아가 보자.‘ 로맨스 영화 보고 난 후 먹으면 좋은 음식은?’ 이라는 검색에 답을 할 수 있을까. 지금 당장은 아니겠지만 구글은 페이지랭크에서 더 진화한 ‘지식그래프’라는 새로운 검색 기능을 통해 그 실마리를 찾고 있다.

 

지금 당장 컴퓨터를 켜고 인터넷 검색창에 ‘타지 마할(Taj mahal)’을 입력해 보자. 가장 먼저 보이는 결과는 인도의 아름다운 사원 타지 마할 성당이다. 그런데 검색한 사람의 의도가 타지 마할 성당이 아니라면? 실제로 그래미상을 받은 뮤지션, 근처 인도 음식점, 호주에서 만든 독립 영화 이름도 타지 마할이다.


인터넷 초창기에 검색은 검색어와 검색어를 포함하는 정보를 연결하는 것에 불과했다. 그런데 이제 현실의 사물과 사람을 이해하고 검색어에 연결된 관계까지 파악하기 시작했다. 검색한 사람이 ‘딱’ 원하는 답을 찾기 위한 과정에 돌입한 것이다.

 

또 다른 예를 들어 보자. 미국 뉴욕의 전·현직 시장은 각각 루디 줄리아니와 마이클 블룸버그다. 두 사람에 대한 구글의 지식그래프 검색 결과는 매우 흥미롭다. 엄청난 재산을 지닌 블룸버그 현 뉴욕 시장의 경우 재산이 요약돼 제공된다.


반면 줄리아니 전 시장의 경우에는 재산이 누락돼 있다. 이처럼 상이한 결과는 검색 키워드와 연관된 정보를 자동으로 추출하는 알고리듬에 의한 것이다.


알고리듬은 사람이 한 단어에 대해 생각하는 의미가 어떤 웹문서를 참조하고 있는지, 그 의미에 대해 사람들이 어떤 관심사를 갖고 있는지, 또 다른 어떤 것과 어떻게 관계를 맺고 있는지 순식간에 찾아내는 것이다. 간단한 얘기로 들리겠지만 여기에는 매우 복잡한 수학적 원리가 숨어 있다.


이를 실제 검색에 적용해 보면 이렇다. 해당 키워드로 검색한 사용자가 그 검색어와 관련해서 어떤 내용을 담은 웹문서를 참조했는지를 데이터 베이스로 만들어 사용자의 의도를 파악한다. 사용자의 웹 활동을 수학적으로 분석하는 집단지성을 이용하는 것이다. 나아가 집단지성과 웹에서 인공지능(AI)의 단초를 제시할 수 있다는 게 구글의 비전이다. 이러한 비전은 이미 구글의 휴대전화 음성 검색에서 일부 구현되고 있다.

 

“(사용자) 여기서 남대문까지 얼마나 걸리나요?”

“(휴대전화) 걸어서 30분 걸립니다.”

“(사용자) 남대문 사진을 보여줘요.”(남대문 이미지 검색 결과 휴대전화 화면에 노출)

“그럼 동대문은요?”(동대문 이미지 검색 결과 휴대전화 화면에 노출-직전 질문과 연결된 문맥 이해)

 

실제 구글 휴대전화 음성검색을 통해 이뤄지는 대화다. 물론 영어로만 가능하지만 곧 다른 언어도 지원할 것으로 보인다. 웹에 쌓이는 데이터가 점점 더 많아지는 현재, 거기서 옥석을 가려내는 검색은 지금도 분명히 진화하고 있다. 미래에는 컴퓨터와 인터넷이 더 많은 문제를 해결해 줄 수 있을 것이다.

 

 

 

글 : 김민수 (동아사이언스 기자,minsa@donga.com)

 

원문 : 한국전자통신연구원 사보 '좋은e웃' (2013. 5~6월호)

 

 

 

 

 

 

 

 

출처 : 미래창조과학부
글쓴이 : 미래창조과학부 원글보기
메모 :