Thesis (Selection of subject)Thesis (Selection of subject)(version: 354)
Assignment details
   Login via CAS
Školní rozbor souvětí
Thesis title in Czech: Školní rozbor souvětí
Thesis title in English: School-type syntactic analysis of a complex sentence
Key words: souvětí|syntaktická analýza
English key words: complex sentence|syntactic analysis
Academic year of topic announcement: 2020/2021
Type of assignment: Bachelor's thesis
Thesis language:
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: RNDr. Daniel Zeman, Ph.D.
Author:
Guidelines
Rozbor stavby souvětí je součástí výuky českého jazyka na druhém stupni základních škol a na gymnáziích, jelikož syntaktická stavba je určující pro správné psaní interpunkce. Je třeba určit věty hlavní a vedlejší, dále se obvykle požadují druhy vedlejších vět (podmětná, předmětná, příslovečná místa/času/způsobu/účelu/příčiny/podmínky/přípustky, doplňková, přívlastková) a druhy poměrů v souřadných spojeních (slučovací, vylučovací, odporovací, stupňovací, důsledkový). Cílem práce je vytvořit nástroj, který bude takový rozbor provádět automaticky, s co nejmenším množstvím chyb.

K práci lze využít některý existující volně dostupný parser pro češtinu, např. UDPipe (http://ufal.mff.cuni.cz/udpipe) s českým modelem. Moderní parsery, založené na hlubokém učení, dosahují vysoké úspěšnosti na testovacích datech, ale jimi prováděná analýza (vycházející z anotačního schématu dat, na kterých byl natrénován model) se liší od rozboru požadovaného na českých školách. Některé informace jsou skryté v jiném tvaru, některé nejsou přímo dostupné vůbec. Těžištěm práce tedy bude zpracování výstupu parseru do podoby školního rozboru. Práce může zahrnovat dodatečné strojové učení jevů, které nejsou ve výstupu parseru přímo dostupné (např. významové rozlišení příslovečných vedlejších vět na místo, čas, způsob atd.) Práci je možné rozšířit i na jiné jazyky než češtinu (případně lze cílit na jiný primární jazyk od začátku).
References
@InProceedings{udpipe:2017,
author = {Straka, Milan and Strakov\'{a}, Jana},
title = {Tokenizing, POS Tagging, Lemmatizing and Parsing UD 2.0 with UDPipe},
booktitle = {Proceedings of the CoNLL 2017 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies},
month = {August},
year = {2017},
address = {Vancouver, Canada},
publisher = {Association for Computational Linguistics},
pages = {88--99},
url = {http://www.aclweb.org/anthology/K/K17/K17-3009.pdf}
}
Preliminary scope of work
Bavil vás na gymnáziu větný rozbor? Nebo vás naopak trápil, a navíc se na rozdíl od otázek z jiných předmětů nedal vyřešit googlením? Naprogramujte si nástroj, který ho vyřeší za vás! S využitím existujících dat a strojového učení to může být snadnější, než to na první pohled vypadá.
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html