Grammarly의 후드 아래 : AI로 무질서한 글쓰기 감지
게시 됨: 2018-07-10문장보다 더 오래 글을 쓸 때마다 생각을 구성하고 제시하는 방법에 대한 결정을 내려야합니다. 각 문장은 이전 문장을 바탕으로 한 문장을 이해하기 쉽습니다. 주제가 변경되면 강한 작가는 전환 문장을 사용하고 단락을 징후로 사용하여 독자에게 다음에 기대할 사항을 알려줍니다.
언어 학자들은 담론 일관성을 작곡하는이 측면을 부르며, 이번 주 호주 멜버른에서 열린 시그니어 컨퍼런스에 실린 문법 연구팀의 멋진 새로운 연구의 주제입니다.
담론 일관성이란 무엇이며 왜 관심이 있습니까?
텍스트가 높은 수준의 담론 일관성을 가지고 있다고 말할 때, 우리는 모든 문장이 논리적으로 연결되어 있음을 의미합니다. 작가는 주제를 벗어나지 않습니다. 다른 지점은 전환으로 연결됩니다. 텍스트는 처음부터 끝까지 따라 가기 쉽습니다.

이러한 유형의 조직이 항상 자연스럽게 오지는 않습니다. 아이디어의 완벽하게 선형적인 진행 상황에서 생각하는 사람은 거의 없습니다. 다른 사람들이 따라야 할 무언가를 썼을 때 자동으로 알려줄 수있는 시스템 (결국에는이 문제를 해결하는 방법을 제안 할 수있는 시스템이 의미하는 바를 전달하는 데 큰 도움이 될 것입니다.
무슨 일이 있었는지
일관성 수준의 텍스트를 정확하게 판단하도록 컴퓨터를 가르치는 것은 어려운 일입니다. 현재까지, 컴퓨터 일관성이 문장 주문 과제를 기반으로하는 컴퓨터 일관성이 얼마나 잘 평가되는지 평가하는 가장 일반적인 방법. 이 방법을 통해 연구원들은 뉴스 기사와 같은 기존의 잘 편집 된 텍스트를 취하고 모든 문장을 무작위로 재정렬합니다. 무작위 순열을 일관성으로 볼 수 있고 원래 순서는 일관된 것으로 볼 수 있다고 가정합니다. 작업은 일관성 버전과 원본을 구별 할 수있는 컴퓨터 알고리즘을 구축하는 것입니다. 이러한 조건에서 일부 시스템은 90 %의 정확도에 도달했습니다. 꽤 인상적입니다.
그러나이 방법에는 큰 잠재적 인 결함이 있습니다. 어쩌면 당신은 이미 그것을 발견했을 것입니다. 무작위로 재정렬 문장은 저렴한 텍스트를 생성 할 수 있지만 인간이 자연스럽게 쓰는 것처럼 보이는 텍스트를 생성하지는 않습니다.
Grammarly에서는 실제 문제를 해결하는 데 중점을 두었 으므로이 분야에서 수행 한 작업은 인공 시나리오가 아니라 실제 글쓰기에 대해 벤치마킹해야한다는 것을 알았습니다. 놀랍게도, 평범한 상황에서 사람들이 작성한 실제 텍스트에 대한 담론 평가 방법을 테스트하는 작업은 거의 없었습니다. 그것을 바꿀 시간입니다.
실제 연구, 실제 작가
우리가 해결해야 할 첫 번째 문제는 담론 일관성을 연구하는 다른 모든 연구원이 직면 한 것과 같은 문제였습니다. 실제 데이터의 부족. 알고리즘을 테스트 할 수있는 평범하고 자연스럽게 작성된 텍스트의 기존 코퍼스가 없었습니다.
우리는 Yahoo Answers, Yelp Reviews, 공개적으로 이용 가능한 정부 및 회사 이메일 등 여러 공개 출처에서 텍스트를 수집하여 코퍼스를 만들었습니다. 우리는이 특정 출처를 선택했습니다. 왜냐하면 사람들이 전형적인 날에 쓴 것, 즉 포스트, 리뷰 및 이메일의 종류를 나타 내기 때문입니다.
이 모든 텍스트를 컴퓨터 알고리즘에서 배울 수있는 코퍼스로 바꾸려면 각 텍스트의 일관성 수준을 평가해야했습니다. 이 과정을 주석이라고합니다. 알고리즘이 아무리 좋은지에 관계없이 조잡한 주석은 결과를 크게 왜곡시킵니다. 우리 논문에서는 크라우드 소싱과 관련된 일부를 포함하여 테스트 한 많은 주석 접근법에 대한 세부 정보를 제공합니다. 우리는 궁극적으로 전문가 주석기가 각 텍스트의 일관성 수준을 3 점 척도 (낮음, 중간 또는 높은 일관성)로 평가하기로 결정했습니다. 각 텍스트는 3 개의 주석이 판단되었습니다.
알고리즘을 테스트에 넣습니다
코퍼스를 가졌을 때, 다양한 컴퓨터 시스템이 주어진 텍스트의 일관성 수준을 어떻게 정확하게 식별 할 수 있는지 테스트해야했습니다. 우리는 세 가지 유형의 시스템을 테스트했습니다.
첫 번째 범주에는 엔티티 기반 모델이 있습니다. 이 시스템은 텍스트에서 동일한 엔티티가 어디서 얼마나 자주 언급되는지 추적합니다. 예를 들어, 시스템이 여러 문장에서 "전송"이라는 단어를 찾으면 해당 문장이 서로 논리적으로 관련되어 있다는 표시로 사용됩니다.
두 번째 범주에서는 어휘 일관성 그래프를 기반으로 모델을 테스트했습니다. 이것은 문장을 그래프의 노드로 표시하고 유사한 단어 쌍을 포함하는 문장을 연결하는 방법입니다. 예를 들어,이 유형의 모델은“자동차”가 포함 된 문장과“트럭”이 포함 된 문장을 연결합니다. 두 문장은 아마도 차량이나 교통에 관한 것이기 때문입니다.

세 번째 범주에는 신경망 또는 딥 러닝 모델이 있습니다. 우리는 문법 팀이 구축 한 두 개의 새로운 모델을 포함하여 이들 중 몇 가지를 테스트했습니다. 이들은 그 의미를 포착하는 각 문장의 표현을 배우는 AI 기반 시스템이며, 이러한 문장 표현을 결합하여 문서의 일반적인 의미를 배울 수 있습니다. 그들은 엔티티 발생 또는 이와 유사한 단어 쌍에만 국한되지 않은 패턴을 찾을 수 있습니다.
문장 주문 과제
우리는 새로운 코퍼스의 고밀도 텍스트를 사용하여 세 가지 유형의 모델 모두에 대한 문장 순서 작업을 만들었습니다. 우리는 다른 문장 순서 데이터 세트에서 잘 수행 된 모델도 데이터 세트에서 잘 수행되었으며 성능은 89 % 정확도입니다. 엔티티 기반 모델과 어휘 일관성 그래프는 괜찮은 정확도 (일반적으로 60 ~ 70 % 정확도)를 보여 주었지만, 4 개의 영역 중 3 개에서 다른 모델을 최소 10 % 포인트로 성능이 우수한 신경 모델이었다.
실제 글쓰기 테스트
우리가 정말로 알고 싶었던 것은 이러한 모델 중 어느 것이 실제 자연스럽게 쓰여진 텍스트에서 동일한 수준의 정확도로 수행 할 수 있는지 여부였습니다. 주석기 라벨을 숫자 값 (Low = 1, Medium = 2, High = 3)으로 변환하고 각 텍스트에 대한 일관성 점수를 얻기 위해 평균 숫자를 함께 모았습니다.
모든 도메인에서, 적어도 하나의 신경망 기반 시스템이 다른 모든 시스템보다 우수했습니다. 실제로, 단락을 고려하는 문법의 모델 중 하나는 아래 표에서 볼 수 있듯이 Yahoo Answers의 텍스트에서 최고 성능을 발휘했습니다. Stanford의 연구원들이 개발 한 신경 도전 모델도 강력한 성과를 거두었습니다.

그러나 우리의 원래의 가설은 정확했습니다. 모든 모델은 문장 순서 작업보다 실제 작업에서 더 나빠졌습니다. 예를 들어, 어휘 그래프 방법은 인공 문장 재정렬 시나리오에서 회사 이메일에 대해 78 % 정확했지만이보다 현실적인 평가에서 45 % 만 달성했습니다.
우리가 찾은 것
담론 일관성에 대한 이전의 연구는 잘못된 것을 테스트하고 있음이 밝혀졌습니다. 문장 주문 과제는 담론 일관성을 측정하기위한 좋은 대리가 아닙니다. 우리의 결과는 분명합니다. 인공 시나리오에서 잘 수행되는 시스템은 실제 텍스트에서 훨씬 더 나쁩니다.
이 발견은 좌절이 아니라는 점에 유의해야합니다. 실제로는 멀지 않습니다. 모든 분야의 성장의 일부는 당신이 평가하는 방법을 평가하는 것입니다. 가끔씩 한 번씩 측정하고있는 것을 살펴 보려면 매번 한 번씩 정점을두고 있습니다. 이 작업으로 인해 담론 일관성을 연구하는 연구원들은 이제 두 가지 중요한 정보가 있습니다. 하나는 문장 주문 과제가 더 이상 정확도를 측정하는 방식이되어서는 안된다는 통찰력입니다. 두 번째는 미래의 연구에서 사용할 수있는 실제 텍스트와 새로운 벤치 마크 (신경 모델)의 공개적으로 주석이 달린 코퍼스입니다.
기대합니다
해야 할 일이 더 많아서 담론 일관성을 텍스트로 판단 할 수있는 시스템에 대한 흥미로운 응용 프로그램이 많이 있습니다. 언젠가는 이와 같은 시스템은 전체 메시지가 얼마나 일관된지를 말할 수있을뿐만 아니라 따르기 어려운 특정 구절을 지적 할 수 있습니다. 언젠가 우리는 당신이 말하려고하는 것이 당신의 수신자에게 분명하도록 이해하기 쉽도록 도와 줄 수 있기를 바랍니다.
결국, 문법의 포괄적 인 커뮤니케이션 어시스턴트가되는 문법의 길은 문법적이고 스타일 적으로 정확한지 확인하는 것이 아닙니다. 의도 한대로 이해되도록하는 것입니다.
---
Joel Tetreault는 Grammarly의 연구 책임자입니다. Alice Lai는 Urbana-Champaign의 일리노이 대학교에서 박사 학위를 받았으며 Grammarly의 연구 인턴이었습니다. 이 연구는 2018 년 7 월 12-14 일 호주 멜버른에서 열린 Sigdial 2018 연례 회의에서 발표 될 예정입니다. "Wild in the Wild : DataSet, Evaluation and Methods"라는 제목의 수반되는 연구 논문은 Clestourse and Lialogue에 관한 특별 관심 단체의 19 번째 연례 회의 진행에 발표 될 것입니다. 이 블로그 게시물에 설명 된 데이터 세트를 문법 일관성의 문법 코퍼스라고하며 여기에서 연구 목적으로 무료로 다운로드 할 수 있습니다.
