누군가가 쓴 저작물의 ‘저자성’을 보호해야한다는 생각에서 시작한 이 프로젝트는 내가 아직 학문적으로 성숙하지 못한 바람에 매우 거친 상태로 나아가고 있다. 다행인 것은, 거칠긴 하지만 ’나아가고‘ 있다는 것이다.
이 페이지에서는 2026년 고1 3월 모의고사에서 무작위로 추출한 텍스트(문장 단위)에 나름대로 언어 특성을 슬롯화하여 0 또는 1 값을 부여한 결과에 대해 간단히 기록하고자 한다. 지난 글에서, 친구와 내가 어떤 문장들에 30비트를 부과하는 것에 성공했다고 짧게 언급하였기에, 이것이 얼마나 엉성하고 약점이 있는지 지금 시점에서는 알아버렸지만 일단은부족하면 부족한대로 이것에 대한 기록은 해두는 게 맞다는 판단이다.
미리 밝혀두건대, 숙련된 연구자가 아니고, 이제 막 학부를 졸업하여, 석사 과정을 밟고 있긴 하지만 정통 연구생은 아닌, 그런 사람이 생각하고 찾아보고 쓴 것이라 엄밀성과 정확성이 다소 떨어질 수 있다. 그럼에도 나는 쓴다. 미성숙하다고 하여 기록하는 것을 회피하면 나는 영영 그 어떤 피드백도 받지 못하고 그 자리에 머물게 되기 때문이다. 나는 정체되고 싶지 않다.
It’s fair to say that patience has a terrible name. For one thing, the prospect of doing anything that you’ve been told will require patience simply seems unattractive. The Sumerians had developed the idea of an emancipated number, existing in its own right and independent of whatever it is being used to count. It is easy to take the emancipated number for granted as it is so deeply set into modern thought, but to the earliest civilizations it was intellectually new and extremely powerful.
출처: 2026년 고1 3월 모의고사 33번 문항
이 문장들은 고1 3월 모의고사에서 무작위로 가져온 문장들이다. 나와 내 친구는 임의로 언어 특성을 정했고 그 특성을 슬롯으로 취급하여 어떤 규칙에 0 값을 부여하고 어떤 규칙에 1 값을 부여할지를 정하였다. 그렇게 제일 처음, 나와 내 친구가 이 문장들에 부과한 비트열은
000000111000000100010000000010
으로, 총 30비트이다.
그런데 지금 시점에서, 다시 문장을 살펴보며 이 30비트에 굉장히 오류가 많다는 걸 확인하였다. 그렇다고 하더라도 먼저 임의로 정했던 슬롯을 기록해두는 편이 좋겠다. 슬롯은 다음과 같다.
<Slot by each linguistic feature>
A. Possesive Adjective
➡️ Presence(0), Absence(1)
–
B. Verb
➡️ Presence(0), Absence(1)
–
C. Voice
➡️ Active(0), Passive(1)
–
D. Polarity
➡️ No negation(0), Negation(1)
–
E. Relative Pronoun
➡️ reveals(0), removed(1)
–
F. Complementizer
➡️ reveals(0), removed(1)
–
G. Coordinating Conjunction
➡️ Presence(0)
–
H. Article
➡️ Presence(0), Absence(1)
–
I. Punctuation
➡️ Presence(0)
–
J. Noun Form
➡️ Singular(0), Plural(1)
–
이 슬롯들 중에 A, D, H, J (각각 Possessive adjective, Polarity, Article, Noun Form)은 명사Noun과 관련이 있으므로 문장에서 명사를 만날 때마다 각 슬롯 값은 채워지게 된다. 위에서 소개한 텍스트 중 세 번째 문장을 독립적으로 살펴보며 이 네 슬롯을 비롯해 전체 슬롯(총 10개)에 따른 비트열을 추출해보자. 아직까진 수기 추출이다.
기준 문장:
The Sumerians had developed the idea of an emancipated number existing in its own right and independent of whatever it is being used to count.
그럼, 이 문장을 ‘일단’ 임의대로 어구로 나누어 살펴보며 슬롯별 값을 추출해보았다. 그 중 설명에 용이한 몇 어구만 추출하여 이 곳에 기록해둔다.
- The Sumerians – 명사다. 앞서 이야기한 네 개의 슬롯 (A, D, H, J)를 모두 고려해야한다. A 슬롯에 1, D에 0, H에 0, J에 1이다.
- An emancipated number existing ~ – 명사구다. A 슬롯에 1, D에 0, H에 0, J에 0. 이 외에 E 슬롯, Relative Pronoun에 대해 이야기해보고 싶은데 number과 existing 사이에 which is 가 생략된 것으로 본다면 E에 1 값 부여 가능하고 be 동사가 생략된 것이므로 B에 1값 부여 가능하다. (B는 Verb 슬롯.)
–
이런 규칙으로 쭉 이 문장의 단어 순에 맞게, 슬롯의 순서(A~J)를 지키며 비트값을 부여하면
비트열은
11101010001000001000011010000
이 된다.
0값이 너무 반복되어서
좀 알아보니 XOR이런걸 해보란다.
여기까진 아직 너무 공학적이라 모르겠고,
이 글에서 적용한 언어 특성(각 슬롯)이 정말 타당한지가 우선 궁금하다.
이 공상을 어떻게 구체화해서 누구한테 어떻게 물어보지?
오늘은 우선 여기까지 쓰련다.
–

contact: seo.gng.kang@gmail.com
+추가: 제미나이랑 이야기하며 정리한 것: 지금 상황에서의 문제를 제미나이와 정리했다. 그 첫 번째는 명사 성격을 가진 특성들과 통사적 성격을 가진 특성들이 하나의 비트열로 혼재하면서 무언가 슬롯들이 유효하지 않은 느낌을 준다는 것이다. 또 두 번째는 관계대명사 생략 등 표면에 드러나지 않는 구조적 생략을 비트 슬롯 자체로 삼을 경우, 인간은 생략된 구조를 알 수 있지만 알고리즘은 이를 자동으로 추출하기 어려울 것이라는 문제이다. 그리고 마지막으로, 엔트로피가 낮고 비트 편향이 심하다고 한다. XOR.. 연산이 필요하다고 한다.
확실히 임의로 정한 슬롯들이라 체계가 부족하다. 생성문법 개론서를 읽고 있다. 이걸 다 읽으면 무언가 체계 비스무리한 게 생기지 않을까?
Leave a comment