Search Results for 'Carnegie Mellon University'


1 POSTS

  1. 2008/08/13 로봇방지 지그재그 이미지 - 캡차(CAPTCHA) by 1stgood (3)

Capcha

요것이 바로 캡차(CAPTCHA)

캡차(CAPTCHA)란 무엇인가?

요즘은 왠만한 웹사이트에 가입을 하기 위해서는 이리저리 찌그러진 글자나 숫자를 가입폼에 적어야 합니다.

바로 로봇으로 가짜 계정(account)을 만들어 악용하는 것을 방지하는 것이 목적입니다.

당연하게 적어야 하는 것으로 알고 이용을 해 왔지만, 이것의 정확한 이름이 무엇인지, 언제, 누가 만들었는지에 대해서는 알고있는 것이 전혀 없었습니다.

우연히 신문에 올라 온 캡차(CAPTCHA)에 대한 기사를 읽은 후, 인터넷에서 자료를 좀 더 모아보았습니다.

캡차(CAPTCHA)는 2000년에 처음 선을 보였습니다. 야후(Yahoo)의 요청으로 카네기 멜론 대학(Carnegie Mellon University)의 루이스 안(Luis von Ahn)과 몇몇 사람들이 개발하였습니다.

요즘 대부분의 웹사이트에서 이 캡차 기술을 사용하고 있지만 실재로 개발자들에게는 한 푼도 돌아가지 않는다고 합니다. 특허(patent)를 내지 않았기 때문입니다. (완전 대박날 수 있었는데, 왜 특허를 내지 않았을까요?)

거의  10여년이 지난 지금 주 개발자였던 루이스 안이 캡차를 바탕으로 한 새로운 기술인 리캡차(reCAPTCHA)를 개발하였습니다.

reCapcha

이것이 바로 리캡차(reCAPTCHA)


리캡차와 캡차는 무엇이 다른가?

캡차에서는 아무 단어나 그냥 보여주지만, 리캡차에서는 의미는 있지만 철자는 정확치 않은 그런 단어들을 보여줍니다.

두 단어를 보여주는데 처음 단어는 철자가 정확한 단어이며, 두번째 단어는 철자가 맞을 수도 있고 틀릴 수도 있습니다.

좀 더 자세한 내용을 설명하기 전에 종이 문서를 전자 문서화 하는 것에 대해서 간단히 알아보죠.

구글은 물론이고 대표적인 신문사, 출판사 등에서 몇 해 전부터 아카이브(Archive) 문서들을 전자 문서화 하는 작업을 진행 중입니다.  이 작업에 가장 중요하게 사용되는 기술은 바로 광학 문자 인식(OCR) 기술입니다.

문제는 조금 오래된 종이 문서를 스캔을 한 후 광학 문자 인식을 하였을 때의 정확도는 80%정도 밖에 되지않기때문에 100% 전자 문서화 하는 대는 당연히 한계가 있습니다.

다시 리캡차로 돌아갑니다.

루이스 안이 새롭게 개발한 리캡차 기술은 광학 문자 인식으로 해결되지 않는 그 20%를 사람의 노력이 아닌 컴퓨터를 사용하여 해결해 줍니다.

아래 그림을 보면서 설명을 드리겠습니다.

OCR

광학 문자 인식 결과


보시는 바와 같이 빨간 줄이 그어진 단어들은 광학 문자 인식이 제대로 되지않은 단어들 입니다. 원본이 깨끗한 경우는 거의 90%이상까지도 정확한 인식이 가능하지만, 오래된 신문과 같이 원본이 온전하지 않은 경우는 위와 같이 오판 확률이 그만큼 높아지게 마련입니다.

리캡차 기술은 위에서 말씀드린 바와 같이 두 단어를 보여줍니다. 처음 단어는 온전한 단어이고 두번째 단어는 위 그림에서 처럼 철자가 정확치 않은 단어입니다.

사용자들의 입력을 통해서 두 번째 단어의 정확한 철자를 얻을 수 있도록 한 것입니다. 보여지는 단어는 광학 문자 인식 후의 결과물이 아닌 스캔한 이미지이므로 사용자들이 거의 정확하게 제대로 된 철자를 입력하게 된다는 것에 착안한 것입니다.

이렇게 리캡차 기술과 사용자들의 도움(?)으로 완전 판독이 불가능한 모든 종이 문서를 전자 문서화 할 수 있게되는 것입니다.

많은 돈은 아니지만 리캡차 기술로 루이스는 이제 어느 정도 수입을 올리고 있다고 합니다. 돈이 목적이 아니므로 자신의 홈페이지 및 기타 운영에 드는 비용을 충당하는 것으로 만족한다고 합니다.
 
지금은 뉴욕 타임즈(Newyork Times) 아카이브를 전자 문서화 하는 프로젝트를 진행하고 있습니다.

무료로 리캡차 기능을 자신의 홈페이지에 달 수도 있습니다. 더 많은 사람들이 이 기능을 사용함으로 인해 비영리 단체의 전자 문서화를 돕는 이 중의 효과를 볼 수 있습니다.


http://recaptcha.net/

2008/08/13 20:20 2008/08/13 20:20

Trackback URL : 이 글에는 트랙백을 보낼 수 없습니다

Trackbacks List

  1. 캡차(Capcha) 라고 들어보셨나요?

    Tracked from 견z. 2008/08/14 02:25 Delete

    첨부한 이미지를 보시면 아아~ 이게 캡차 구나 라고 하실지도 모르겠네요 프로그램등을 이용해서 로봇이 자동으로 회원가입을 하고 그것을 악용하는 사례를 막기 위해서 여러 사이트등에서 많이 사용하고 있지요 캡차와 리캡차에 대한 간략한 설명이 있는 포스트 한번 보시겠어요?

Comments List

  1. 집합명사 2008/08/14 02:02 # M/D Reply Permalink

    CAP"T"CHA

    1. 1stgood 2008/08/14 05:20 # M/D Permalink

      감사합니다. Capcha를 CAPTCHA로 모두 수정하였습니다.

  2. VanceLeanna 2011/06/04 12:58 # M/D Reply Permalink

    The <a href="http://bestfinance-blog.com/topics/credit-loans">credit loans</a> suppose to be very useful for guys, which are willing to ground their career. As a fact, that is not hard to get a secured loan.

Leave a comment

블로그 이미지

실리콘밸리에 살고 있는 SW 엔지니어가 풀어 놓는 미국생활 이야기와 IT 관련 글을 보실 수 있습니다.

- 1stgood

Archives

Statistics Graph