Diskuse s uživatelem:Mykhal/Hesla s názvem v různých písmech

Z Wikislovníku
Skočit na navigaci Skočit na vyhledávání

japonština[editovat]

Všechna Vámi (do dnešního dne) vložená japonská hesla zase můžete smazat. Až vyhledám, přidám sem asi 1 - 2 japonská hesla (která zde zatím nebyla uvedena), která sem skutečně patří. Jelikož se jedná o osobní stránku, přidám je sem, do diskuse. --Kusurija (diskuse) 22. 8. 2021, 12:22 (CEST)[odpovědět]

Našel jsem: 塩化鉛(IV). S úctou: --Kusurija (diskuse) 22. 8. 2021, 12:26 (CEST)[odpovědět]
@Kusurija: Díky za proaktivní reakci. A díky za další námět na vylepšení filtrovacího "algoritmu". Seznam bych zatím ponechal, je generován poloautomaticky na základě zhruba měsíčních wikidb dumpů a budu ho zhruba takhle často aktualizovat, možná ho aktualizuji s upraveným filtrem dříve. Zdraví, —Mykhal (diskuse) 22. 8. 2021, 12:51 (CEST)[odpovědět]
@Mykhal:V japonštině skutečně nejde o různá písma, s přimhouřením oka bychom jako kombinaci různých písem v japonštině mohli akceptovat tak leda kombinaci hiragany s katakanou v jednoslovném výrazu. Nebo jednoznačně kombinaci manjógany (nebo jiných přechodných tvarů kandži) s moderním japonským textem (takováto hesla jsem ještě na žádném (ani českém ani anglickém ani jiném) wikislovníku nezaregistroval a nehodlám je zakládat. To je, co se týče japonštiny. Pokud byste našel v korejštině kombinaci korejského slabičného písma s čínskými znaky, to by do seznamu Hesla s názvem v různých písmech patřilo, ale ani s tímto jsem se ve slovníkových materiálech nesetkal. --Kusurija (diskuse) 22. 8. 2021, 13:04 (CEST)[odpovědět]
@Kusurija: Zpracovánám čistě na základě Unicode dat, o luštění o kolikaslovný výraz jde zatím neuvažuji, ale podívám se časem, ale jestli by byly možné jiné jemnůstky na úrovni znaků. Co se týče toho 塩化鉛(IV), na seznamu už dávno je (viz "backlink"); problém může být snad v řazení, to prozatím přejímám ze zdroje dat. —Mykhal (diskuse) 22. 8. 2021, 13:16 (CEST)[odpovědět]
@Mykhal:Jestliže zařazujete japonská hesla s okuriganou a/nebo partikulemi a/nebo odborné/přejaté názvy bez výskytu nejaponské části textu, tak proč nezařazujete v češtině kombinace běžného textu s kurzívou nebo s tučným textem?? Je snad kurzíva „různé písmo“ (od latinky)?? Není a nikdy nebude. Jsou snad písmena s diakritikou (háčky, čárky, kroužek) „různé písmo“ (od latinky)?? Také ne. O různá písma by se mohlo jednat jedině, kdyby se kana vyskytla v čínském (nikoliv v japonském) textu. Nebo pokud by se výlučně čínské znaky vyskytly v japonském textu. (P.S. toto je obrovský problém českého wikislovníku (narozdíl od např. anglického), který do japonských hesel cpe čínské varianty japonských znaků. Na umravnění tohoto nešvaru by bylo spíše třeba se soustředit). --Kusurija (diskuse) 22. 8. 2021, 14:58 (CEST)[odpovědět]
@Kusurija: Nikoliv, dle Unicode vlastnosti Script se např. "ABC" skládá pouze z Latin znaků (stylovaných na jiné úrovni než Unicode), "A𝐁𝐶" se pak skládá z Latin a Common znaků (ty posledně zmiňované ignoruji a nepovažuji za další písmo), kdežto např. "会う" se skládá ze znaků Han a Hiragana. —Mykhal (diskuse) 22. 8. 2021, 16:53 (CEST)[odpovědět]
Pokud se Vám nelíbí definice pojmu "písmo" použitá v tomto seznamu, tak si ho prosím nevšímejte. —Mykhal (diskuse) 22. 8. 2021, 15:26 (CEST)[odpovědět]
@Kusurija: .. Tento seznam má zpočátku sloužit pro zachytávání latinkově-cyrilicových překlepů, cyrilicově-alfabétových apod. CJK jsem zatím neřešil, ale rád se nechám poučit nějakými souvisejícími zmiňovanými nešvary. Možná půjdou pořešit pomocí Unihan dat, ale v této oblasti zatím nejsem příliš políben. —Mykhal (diskuse) 22. 8. 2021, 17:33 (CEST)[odpovědět]
Jsem velmi vděčný za to „zachytávání latinkově-cyrilicových překlepů, cyrilicově-alfabétových apod“ i za koment k CJK. Všiml jsem si Vašeho přesměrování μg a nepodařilo se mi odhalit, kde je rozdíl. Ať ten správný nebo ten, ze kterého přesměrováváte jsou oba v různých písmech. Co se týče Unihan dat, tak bych taky rád věděl, jak to na en.wikt dělají, že z totožně kódovaného znaku udělají v japonštině japonskou (grafickou) verzi a v čínštině čínskou. Příklad (v momentě, kdy to píšu nevím jak se zobrazí) japonské / : あたえ/atae versus čínské / ㄩˇ/jü3, ㄩˋ/jü4, ㄩˊ/jü2. Takových dvojic je daleko více, rozdíly jsou jinde větší (zde spodnější vodorovná čárka v japonštině přeškrtává „hák“, v čínštině nepřeškrtává), ale nejsou u všech čínských znaků (jinak shodných pro ja/zh) rozdílné. Z toho důvodu, že na českém wikislovníku tyto rozdíly neumíme umravnit, jsou zde mnohá japonská hesla špatně, protože se zobrazuje místo japonské varianty varianta čínská. (P. S. - záleží na prohlížeči uživatele, někomu se to ukazuje obráceně: je upřednostňována varianta japonská, takže ten na svém počítači uvidí oba znaky stejné - japonský přeškrtnutý tvar. Protože můj prohlížeč upřednostňuje tvary čínské, neumím to pro uživatele s upřednostněním japonským zapsat tak, aby rozdíl viděl on.) --Kusurija (diskuse) 22. 8. 2021, 20:21 (CEST)[odpovědět]
@Kusurija: Zatím rychlý průzkum a rychlá odpověď: dělají to nastavením jazyka potažmo fontu (viz zdrojový kód tohoto příspěvku): , ale že to jsou ve skutečnosti stejné znaky se můžete přesvědčit vícero způsoby, jeden z nejrychlejších je např. plugin prohlížeče Character Identifier (pro Firefox, nevím jak u jiných browserů). Zdraví, —Mykhal (diskuse) 22. 8. 2021, 20:39 (CEST)[odpovědět]
@Mykhal: Není tomu tak: například (japonskou verzi) číňan nepřečte a o co jde, zjistí jedině za použití Google nebo jiným podobným vyhledávačem, stejnětak japonec nedokáže přečíst (čínskou verzi). Navíc rozlišení nelze zamontovat do názvu hesla ani do názvu kategorie. --Kusurija (diskuse) 22. 8. 2021, 20:55 (CEST)[odpovědět]
@Kusurija: Děkuji za další zajímavost. Mínil jsem stejné ve smyslu "datovém". Je to zvláštní, že jsou různé znaky pro mikro a řecké mí, kdežto takto podstatněji odlišné znaky rozlišeny v Unicode nejsou (u zmiňovaného znaku jde v obou případech o znak U+8708 <CJK Ideograph> [ja: / GO] [zh(M):wú] [zh(C):ng4] [ko:O] (centipede)) a musí se to řešit na úrovni fontů. —Mykhal (diskuse) 22. 8. 2021, 21:01 (CEST)[odpovědět]