Témata prací (Výběr práce)

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Školní rozbor souvětí

Název práce v češtině:	Školní rozbor souvětí
Název v anglickém jazyce:	School-type syntactic analysis of a complex sentence
Klíčová slova:	souvětí\|syntaktická analýza
Klíčová slova anglicky:	complex sentence\|syntactic analysis
Akademický rok vypsání:	2020/2021
Typ práce:	bakalářská práce
Jazyk práce:
Ústav:	Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel:	RNDr. Daniel Zeman, Ph.D.
Řešitel:

Zásady pro vypracování

Rozbor stavby souvětí je součástí výuky českého jazyka na druhém stupni základních škol a na gymnáziích, jelikož syntaktická stavba je určující pro správné psaní interpunkce. Je třeba určit věty hlavní a vedlejší, dále se obvykle požadují druhy vedlejších vět (podmětná, předmětná, příslovečná místa/času/způsobu/účelu/příčiny/podmínky/přípustky, doplňková, přívlastková) a druhy poměrů v souřadných spojeních (slučovací, vylučovací, odporovací, stupňovací, důsledkový). Cílem práce je vytvořit nástroj, který bude takový rozbor provádět automaticky, s co nejmenším množstvím chyb.

K práci lze využít některý existující volně dostupný parser pro češtinu, např. UDPipe (http://ufal.mff.cuni.cz/udpipe) s českým modelem. Moderní parsery, založené na hlubokém učení, dosahují vysoké úspěšnosti na testovacích datech, ale jimi prováděná analýza (vycházející z anotačního schématu dat, na kterých byl natrénován model) se liší od rozboru požadovaného na českých školách. Některé informace jsou skryté v jiném tvaru, některé nejsou přímo dostupné vůbec. Těžištěm práce tedy bude zpracování výstupu parseru do podoby školního rozboru. Práce může zahrnovat dodatečné strojové učení jevů, které nejsou ve výstupu parseru přímo dostupné (např. významové rozlišení příslovečných vedlejších vět na místo, čas, způsob atd.) Práci je možné rozšířit i na jiné jazyky než češtinu (případně lze cílit na jiný primární jazyk od začátku).

Seznam odborné literatury

@InProceedings{udpipe:2017,
author = {Straka, Milan and Strakov\'{a}, Jana},
title = {Tokenizing, POS Tagging, Lemmatizing and Parsing UD 2.0 with UDPipe},
booktitle = {Proceedings of the CoNLL 2017 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies},
month = {August},
year = {2017},
address = {Vancouver, Canada},
publisher = {Association for Computational Linguistics},
pages = {88--99},
url = {http://www.aclweb.org/anthology/K/K17/K17-3009.pdf}
}

Předběžná náplň práce

Bavil vás na gymnáziu větný rozbor? Nebo vás naopak trápil, a navíc se na rozdíl od otázek z jiných předmětů nedal vyřešit googlením? Naprogramujte si nástroj, který ho vyřeší za vás! S využitím existujících dat a strojového učení to může být snadnější, než to na první pohled vypadá.