26
Мультимедийные корпуса Семинар по идишу 06.09.14 Ольга Созинова

Мультимедийные корпуса

Embed Size (px)

DESCRIPTION

Ольга Созинова. Мультимедийные корпуса. Семинар по идишу 06.09.14. Список корпусов. http://www.ruscorpora.ru/search-murco.html НКРЯ, мультимедийный корпус http://childes.psy.cmu.edu/browser/index.php CHILDES Transcript Browser (Child Language Data Exchange System) - PowerPoint PPT Presentation

Citation preview

Page 1: Мультимедийные корпуса

Мультимедийные корпуса

Семинар по идишу06.09.14

Ольга Созинова

Page 2: Мультимедийные корпуса

Список корпусов1. http://www.ruscorpora.ru/search-murco.html НКРЯ, мультимедийный корпус2. http://childes.psy.cmu.edu/browser/index.php CHILDES Transcript Browser (Child

Language Data Exchange System)3. http://secrets.rutgers.edu/dai/queryPages/querySelection.php National Center for Sign

Language and Gesture Resources (NCSLGR) corpus4. http://research.nii.ac.jp/jsl-corpus/en/ Corpus Project in Colloquial Japanese Sign Language5. http://www.slavist.de/Pushkin/ Диалектологический корпус (Архангельская обл.,

д.Михалевская)6. http://www.scottishcorpus.ac.uk/ Scottish Corpus Of Texts & Speech7. http://webapps.ael.uni-tuebingen.de/backbone-search/faces/search.jsp BACKBONE

Pedagogic corpora for content & language integrated learning8. http://www.uni-tuebingen.de/elisa/html/elisa_index.html English Language Interview

Corpus as a Second-Language Application9. http://www.splloc.soton.ac.uk/search.php Spanish Learner Language Oral Corpora10. http://www.flloc.soton.ac.uk/search.php French Learner Language Oral Corpora

Page 3: Мультимедийные корпуса

1. НКРЯ, мультимедийный корпус

• Написан на JavaScript• Видео в формате *.flv, проигрыватель:

Yandex Player 13.101-123• Есть возможность скачать видео в *.mp4• Выдача большая: преконтекст, постконтекст• Нет синхронизации видео с текстом• Как и в основном корпусе НКРЯ –

морфологическая разметка, мощный поиск

Page 4: Мультимедийные корпуса

1. НКРЯ, мультимедийный корпус

• Возможность задать речевые действия и жесты: – количество говорящих в клипе; – социальная ситуация, отраженная в клипе;– типы речевых действий;– ориентация ладони;– направление движения;– многое другое

Page 5: Мультимедийные корпуса

1. НКРЯ, мультимедийный корпус

• Запрос: ехать + речевое действие: вопрос к самому себе

Page 6: Мультимедийные корпуса

2. CHILDES Transcript Browserhttp://childes.psy.cmu.edu/browser/index.php

• Записи детской речи• Есть материалы с аудио, видео и просто текст• Материалы с видео:– Проигрыватель QuickTime Plug-in– Текст с пронумерованными строчками,

синхронизация видео с текстом• Поиск при помощи особого языка команд CLAN.

Разработано именно для этого проекта.

Page 7: Мультимедийные корпуса

2. CHILDES Transcript Browserhttp://childes.psy.cmu.edu/browser/index.php

• Страница примера

Page 8: Мультимедийные корпуса

3. National Center for Sign Language and Gesture Resources (NCSLGR) corpus

http://secrets.rutgers.edu/dai/queryPages/querySelection.php

• Корпус жестов• Поиск по разным свойствам жестов, чекбоксы• В выдаче таблица с названиями жестов и

именами людей, в пересечении – ссылка на видео с жестом и видео с контекстом

• Поисковая страница – PHP, также использован JavaScript

• Видео – JW Player 5.1.897 (очень классный!) http://www.jwplayer.com

Page 9: Мультимедийные корпуса

3. National Center for Sign Language and Gesture Resources (NCSLGR) corpus

http://secrets.rutgers.edu/dai/queryPages/querySelection.php

• Страница выдачи

Page 10: Мультимедийные корпуса

3. National Center for Sign Language and Gesture Resources (NCSLGR) corpus

http://secrets.rutgers.edu/dai/queryPages/querySelection.php

• Видео в всплывающем окне

Page 11: Мультимедийные корпуса

4. Corpus Project in Colloquial Japanese Sign Language

http://research.nii.ac.jp/jsl-corpus/en/

• Безумно красивый сайт с Flash-вставками

Page 12: Мультимедийные корпуса

4. Corpus Project in Colloquial Japanese Sign Language

http://research.nii.ac.jp/jsl-corpus/en/

• Но совсем нет никакого поиска – просто 2 базы данных жестов

• Страница «What is your sign for?»

Page 13: Мультимедийные корпуса

4. Corpus Project in Colloquial Japanese Sign Language

http://research.nii.ac.jp/jsl-corpus/en/

• Видео в всплывающем окне с аннотацией• Красиво, но написано на Flash -> долго

грузится

Page 14: Мультимедийные корпуса

5. Диалектологический корпус (Архангельская обл., д.Михалевская)

http://www.slavist.de/Pushkin/

• Поиск с CQP-запросами• Выдача аудио и текста (контекст +

выделено цветом искомое)• Синхронизации с текстом нет, аудио

выдается только с контекстом• PHP, XML

Page 15: Мультимедийные корпуса

5. Диалектологический корпус (Архангельская обл., д.Михалевская)

http://www.slavist.de/Pushkin/

• Страница выдачи

Page 16: Мультимедийные корпуса

6. Scottish Corpus Of Texts & Speech http://www.scottishcorpus.ac.uk/

• Простой поиск (слово/фраза, автор, тип текста – устный или письменный, и т.д.)

• PHP, JavaScript• Аудио – всплывающее окно в QuickTime,

возможность синхронизации с текстом• Возможность просмотреть только простой

текст и скачать его; также можно скачать аудиофайл

Page 17: Мультимедийные корпуса

6. Scottish Corpus Of Texts & Speech http://www.scottishcorpus.ac.uk/

• Страница выдачи

Page 18: Мультимедийные корпуса

6. Scottish Corpus Of Texts & Speech http://www.scottishcorpus.ac.uk/

• Страница примера

Page 19: Мультимедийные корпуса

6. Scottish Corpus Of Texts & Speech http://www.scottishcorpus.ac.uk/

• Всплывающее окно с аудио

Page 20: Мультимедийные корпуса

7. BACKBONE Pedagogic corpora for content & language integrated learning

http://webapps.ael.uni-tuebingen.de/backbone-search/faces/se

arch.jsp • Видео-интервью с носителями 6 языков• Поиск по категориям (база данных), co-

occurrence, concordance (но выдача только текстовая)

• Аудио и видео только скачивать (несмотря на надпись Play), формат *.wvx

• JavaScript

Page 21: Мультимедийные корпуса

7. BACKBONE Pedagogic corpora for content & language integrated learning

http://webapps.ael.uni-tuebingen.de/backbone-search/faces/se

arch.jsp • Страница выдачи

Page 22: Мультимедийные корпуса

7. BACKBONE Pedagogic corpora for content & language integrated learning

http://webapps.ael.uni-tuebingen.de/backbone-search/faces/se

arch.jsp • Всплывающее окно с аннотацией

Page 23: Мультимедийные корпуса

8. English Language Interview Corpus as a Second-Language Application (ELISA)

http://www.uni-tuebingen.de/elisa/html/elisa_index.html

• Интервью с носителями английского языка• Похож на BACKBONE• Для каждого интервью можно просмотреть

простой текст, XML, частотные списки слов• Видео только скачивать (формат *.smil)

Page 24: Мультимедийные корпуса

8. English Language Interview Corpus as a Second-Language Application (ELISA)

http://www.uni-tuebingen.de/elisa/html/elisa_index.html

• Страница с интервью

Page 25: Мультимедийные корпуса

9, 10. Spanish Learner Language Oral CorporaFrench Learner Language Oral Corpora

http://www.splloc.soton.ac.uk/search.php http://www.flloc.soton.ac.uk/search.php

• Корпуса для исследований французского и испанского языков как L2

• Использованы технологии CHILDES (Child Language Data Exchange System) http://childes.psy.cmu.edu/

• Поиск простой, по параметрам (корпус, тип задания – general chat, story recall, etc.)

• Аудио открывается в том же окне• JavaScript

Page 26: Мультимедийные корпуса

9, 10. Spanish Learner Language Oral CorporaFrench Learner Language Oral Corpora

http://www.splloc.soton.ac.uk/search.php http://www.flloc.soton.ac.uk/search.php

• Страница выдачи