Индексация смыслов

реклама
Язык и мозг:
индексация смыслов
Может ли компьютер
выучить язык?
Шумский Сергей Александрович
serge.shumsky@gmail.com
Почему это важно
Science, 2011
1024
Память
компьютеров
1026
1024
1022
1022
Знания
людей
1020
1018
1020
1018
Все Знания уже оцифрованы
но
компьютеры их не понимают
1016
1016
1014
1014
1012
1012
1980
1990
2000
2010
2020
2030
2040
2050
Почему это важно сейчас
1024
Производительность
компьютеров
1024
1022
Разум
22
людей 10
1020
1020
GPU
1018
1018
1016
Компьютерный ресурс
уже
нельзя игнорировать
CPU
1014
1016
1014
1012
1012
1980
1990
2000
2010
2020
2030
2040
2050
Ключевая технология
 Обучить компьютеры языку
Индексация текстов
101
102
103
Индексация смыслов
104
Мама мыла раму мылом
Текст
Кто
Что
Чем
Мама мыла раму мылом
Семантический
процессор
Смысл
Требуется
 Понимание значений
Кто: Сергей ~ Андрей ~ Геннадий
Когда: вчера ~ на днях ~ 18 апреля
Что сделал: сказал ~ сообщил ~ доложил
 Понимание отношений
Собака лает караван идет
Задача
 Построить модель «языкового органа»
 Зная, как устроен продукт этого органа
 Опираясь на принципы работы мозга
S
AuxP
NP
N
Aux
VP
V
PP
P
NP
N
План
 Как устроен язык
 Структура данных в мозге
 Как устроена кора мозга
 Алгоритм обработки данных
 Как мозг понимает язык
 Архитектура органа языка
 Моделирование органа языка
 Учим компьютер языку
Как устроен язык
Рекурсивная природа языка
Разбор предложений:
рекурсия бинарных слияний
S
AuxP
NP
N
S
Aux
VP
V
Джон
N
VP
PP
P
John
AuxP
NP
PP
NP
NP
N
N
is in love with
Mary
влюблен в
Мэри
John-ga Mary
Джон
Мэри
Aux
V
P
to renaisite iru
в влюблен есть
Как устроена кора мозга
Мыслящая поверхность
Мыслящая поверхность
 Интеллект сосредоточен в коре мозга
 У человека ~ 4/5 объема мозга
 Кора относительно проста
 Однородная ткань ~ 3 мм
 50  50 см2
 Единый алгоритм
 Распознать ситуацию
 Выработать ответ
Ваша кора слушает это 
Клеточная теория коры
 Кора: однородная слоисто-ячеистая
 6 слоев у всех млекопитающих
 Мини-колонки (ячейки)
 D ~ 30 мкм ~100 клеток
 Общее происхождение
 Макро-Колонки
 D ~ 300 мкм ~100 мини-колонок
 Возбуждаются одновременно
 «Разрешающая способность» мозга
~ 106 признаков
“The columnar organization of neocortex” Mountcastle, 1997
Модель коры:
самоорганизующиеся карты
 Каждая ячейка распознает «свой» входной сигнал
 Активирует ближние, подавляет дальние
 Подкрепляет свою «память»
~ 0.3 мм
Победитель забирает все
Модель коры:
самоорганизующиеся карты
 Каждая ячейка распознает «свой» входной сигнал
 Распространяет активность на соседей и далее
 Подкрепляет свою «память»
~ 0.3 мм
Kohonen, 1981
Формальный нейрон ~ 104 биологических нейронов
Иерархия признаков
Лурия, Поляков, 1962
102 бит/c
106
1/104÷105
Понятия
Сущности
106
1/102÷103
Сложные
признаки
1/10
105
Базовые
признаки
106 бит/c
Первичные, вторичные, третичные области коры
Иерархия корковых зон
Базовые действия
А.Р. Лурия, 1962
Сложные действия
Планирование
действий
Принятие
решений
Базовые
признаки
Синтетические
понятия
Сложные
признаки
Результат обучения:
зрительная кора
1 mm
Кора – «тату» из ~ 106 специализированных детекторов
Результат обучения:
сенсорная/моторная кора
Кора – «тату» из ~ 106 специализированных детекторов
Как устроен
«орган языка»?
Как кора организует
рекурсивные вычисления?
Источник рекурсии –
таламус (?)
Кора
-ритм ~ 20 Гц
Таламус
1:1000
Карты корреляций
Пара-победитель
«забирает все»
Карты корреляций
Пара-победитель
«закорачивает» путь
повторного сигнала
Повторный сигнал
Рекурсивные
карты корреляций
Джон был влюблен в Мэри
Код динамического паттерна
-ритм Таламуса (~20 Гц)
Модель «органа языка»
Смыслы слов
Кора
Структура
слов
Структура
предложений
Части речи
Алфавит
Таламус
1:1000
Моделирование
«органа языка»
Машинное обучение языку
Текст
Семантический
процессор
Смысл
Семантический процессор
Голем
 Из коллекции текстов любого языка
 Автоматически выявляет иерархию
языковых паттернов (штампов)
 Типичные сочетания
 Букв/фонем: морфология
 Окончаний: синтаксис
 Оснований: семантика
Морфологический модуль
Смыслы слов
Кора
Структура
слов
Структура
предложений
Части речи
Алфавит
Таламус
Морфология
 Обучение
 Сочетания
букв
 Результат
 Разбор слов
 Словоформы
Морфологическая кора
Синтаксический модуль
Смыслы слов
Кора
Структура
слов
Структура
предложений
Части речи
Алфавит
Таламус
Синтаксис
 Обучение
 Сочетания окончаний
 Результат
 Разбор предложений
Семантический модуль
Смыслы слов
Кора
Структура
слов
Структура
предложений
Части речи
Алфавит
Таламус
Семантика
 Обучение
 Сочетания оснований
 Результат
 Распознавание понятий
(классы эквивалентности):
Кто, Где, Когда, Сколько, …
баллистическая
зенитная
сергей
процентов
крылатая
александр
километров
дэвид
windows
межконтинентальная
андрей
килограмм
майкл
dvd
противотанковая
юрий
миль
вера
player
твердотопливная
николай
нанометров
марк
internet
…
вышла
олег
баксов
давид
flash
тысяч
(33)
приехал
…
…
федор
twitter
метров
вышел
(298)
(12)
…
грамм
приезжает
(1799)
квт
вылетает
килограмм
уехал
миллиметров
…
ван
…
(89)
браун
(31)
титов
шевченко
сказал
семенов
отметил
павлов
подчеркнул
…
добавил
(4341)
белоруссия
грузия
напомнил
столица
армения
турция
уточнил
москва
венесуэла
азербайджан
…
сочи
туркменистан
узбекистан
(19)
париж
сирия
абхазия
пекин
нкр
индия
астана
…
…
…
(69)
(40)
(428)
Семантическая карта
Как это использовать?
Машинная обработка знаний
Семантический поисковик
Шерлок
Иван
смотрел,
как
Федор
Петр
Митяй
Ваня
…
(1200)
видел
наблюдал
что
заметил
убедился
…
(2)
(120)
машина
ехала
по
Форд
Мерседес
вездеход
Лада
…
(1370)
мчался
скользил
двигался
плелась
…
(110)
дороге
шоссе
автобану
тракту
проселку
…
(340)
1 прототип: 1200 × 120 × 2 × 1370 × 110 × 340 = 1013 вариантов
Шерлок: Интерактивное досье
Интерактивное досье
Next Big Thing
Бит/с за $1000
1014
1012
Роботы
Поиск мультимедиа
Умные поисковики
1010
108
Сжатие видео
106
Мультимедиа
коммуникации
104
1980
Искусственный
Интеллект
1990
2000
2010
2020
2030
2040
Скачать