Wikislovník:Průzkum názorů/Šablonizace (některých) nadpisů + změna kategorizace dle slovních druhů

Z Wikislovníku
Skočit na navigaci Skočit na vyhledávání

Šablonizace nadpisů jazyků[editovat]

V současné době se nadpis jazyka píše ve zdrojovém kódu textem (např. == čeština ==, == grónština ==).

výhody:

  • jednoduchost
  • rychlost
  • zavedenost, zvyk

nevýhody:

  • náchylnost k chybám (překlepy, resp. chyby uživatelů)
  • z toho pramenící nekonzistence (nejednotnost zápisu), které někdy mohou zůstat i dlouho nepovšimnuté/neopravené/nestandarizované
    • z tohoto důvodu značně ztížená možnost strojového zpracování
  • nemožnost automaticky provádět další funkce na pozadí

Navržená změna: uvádění nadpisu jazyka šablonou (== {{Jazyk|cs}} ==, popř. == {{Jazyk|čeština}} ==.

výhody:

  • konzistence (jednotnost) všech nadpisů
  • možnost individuálního nastavení zobrazení nadpisu jazyka (např. pokud se mi nelíbí zde užívaný "oficiální" název tagalština, nastavím si tagalog)
  • možnost provádění řady funkcí na pozadí:
    • automatické zařazování všech hesel v jazyce do jedné kategorie (např. Kategorie:Dánština/vše bude obsahovat všechna hesla v dánštině, tím bude možné jednoduše zjistit, kolik jich už máme - v současné době k tomu je potřeba ručně posčítat součet položek všech kategorií typu Dánská substantiva, Dánská adjektiva atd.)
    • možnost zavedení množství nových automatických kategorií/funkcí, např.:
      • podle počtů písmen — Kategorie:Slova s 5 písmeny/dánština, Kategorie:Slova s 5 písmeny/vše
      • slova bez samohlásek — Kategorie:Slova bez samohlásek/dánština, Kategorie:Slova bez samohlásek/vše
      • retrográdní řazení — Kategorie:Slova končící na: -s/dánština, Kategorie:Slova končící na: -is/vše
      • podle počtu jazyků na stránce (např. slovo a je dle současné verze stránky v 10 jazycích+mezijazykové, tak by bylo v kategorii např. Kategorie:Slova dle počtu jazyků/11 (popř. 10)
        • s tím souvisí i možnost vzniku kategorií typu Kategorie:Slova existující v češtině i slovenštině, kam by patřilo např. heslo divadlo
        • a kdyby si s tím někdo vyhrál, daly by se relativně snadno vytvořit i "meta"kategorie jako Kategorie:Slovanské jazyky/vše (kde by byla všechna slova ze všech slovanských jazyků, co tu máme :-)
        • "meta"kategorií by šlo vymyslet hafo, např. Kategorie:Slova v azbuce/vše, Kategorie:Slova čtená zprava doleva/vše.... apod.
        • dále např. Kategorie:Čeština/Slova s tvrdým i po l :)

nevýhody:

  • nutné změnit nadpisy ve všech heslech (mělo by jít z velké části roboticky, člověk by opravil jen nestandardní nadpisy)
  • nutné zvyknout si na nový systém

Šablonizace nadpisů slovních druhů[editovat]

Myšleny jsou nadpisy jako === podstatné jméno === a === sloveso (2) ===

Navržený je zápis ve smyslu === {{Podstatné jméno|cs}} === nebo === {{Slovní druh|podstatné jméno|cs}} ===, podobu (název) šablony je třeba vydiskutovat, včetně toho, zda každý slovní druh bude mít svou šablonu nebo bude jedna šablona pro všechny slovní druhy.

Výhody a nevýhody jsou podobné jako výše, specifické je to, že by nadpisy šly nastavit individuálně podle jazyka a to jednak na celém Wikislovníku i v uživatelském nastavení (např. by bylo nastaveno, že u latiny nebude nadpis "podstatná jména", ale "substantiva".)

Významná výhoda je to, že by veškerá kategorizace dle slovních druhů (Kategorie:Česká substantiva, Kategorie:Řecká slovesa by probíhala automaticky a tyto kategorie by již nebylo nutné tvořit manuálně!

Co se týče výše zmíněných automatických kategorií jako je Kategorie:Slova s 5 písmeny/dánština a Kategorie:Slova s 5 písmeny/vše tak tyto by šly učinit též "slovnědruhově", tedy např. Kategorie:Slova s 5 písmeny/dánština/podstatná jména, resp. Kategorie:Slova s 5 písmeny/podstatná jména/vše

Dále by šly kategorizovat počty slov v daném jazyce na stránce. Pokud je ve stránce v jednom jazyce třeba podstatné jméno a sloveso, stránka by se kategorizovala do kategorie třeba Kategorie:Počet slov/čeština/2 a kdyby se posčítaly položky v těchto kategoriích, dal by se zjistit celkový počet slov v jazyce, který zde máme.

Změna kategorizace slovních druhů[editovat]

V této souvislosti navrhuji změnu, která s výše navrženou šablonizací nesouvisí, resp. jen částečně. Současné kategorie slovních druhů jsou tvořeny manuálně (např. Kategorie:Francouzská zájmena, Kategorie:Bulharská slovní spojení, přičemž mi tento způsob manuálního tvoření připadá z několika důvodů sporný.

  1. Mnohá adjektiva odvozená od názvu jazyka (jako je český, německý, francouzský) mají další významy. Např. adjektivum český znamená: související s Českem, související s Čechami, související s Čechy, související s češtinou. Spojení "česká substantiva" má tedy nejméně 4 významy. Tímto způsobem tvořené názvy kategorií jsou nepřesné a někdy mohou být i matoucí (znamená "francouzské fráze" fráze užívané Francouzi, fráze užívané ve Francii nebo fráze ve francouzštině"?)
  2. Některé názvy jazyků mají více způsobů, jak utvořit název kategorie, resp. odvozeného adjektiva. Např. u jazyka "starověká egyptština" se nabízí "Staroegyptská substantiva" i "Substantiva ve starověké egypštině". Ne ve všech případech lze názvy kategorií odvodit "z hlavy".
  3. V případě přechodu na automatickou kategorizaci (viz výše) by sice šlo systém naprogramovat tak, aby názvy kategorií zůstaly v dnešní podobě, ale bude to komplikované (nejspíš bude nutné všechny názvy kategorií zadávat ručně). Jednodušší (a z dalších důvodů užitečné) by bylo změnit systém této kategorizace a to tak, aby tyto kategorie neobsahovaly adjektivum odvozené od jazyka.

Navrhuji podobu typu: Kategorie:Francouzština/slovesa, Kategorie:Ruština/zkratky --Auvajs (diskuse) 13. 3. 2016, 23:12 (CET)

Průzkum názorů[editovat]

Rád bych zahájil celkomunitní diskuzi k výše navrženým změnám. Prosím proto o stanoviska uživatelů: další nápady (je možné editovat i sekce nahoře, zejména doplňovat možné výhody/nevýhody), rovněž jako vyjádření souhlasu/nesouhlasu. Děkuji moc. --Auvajs (diskuse) 13. 3. 2016, 23:17 (CET)

Šablonizace nadpisů jazyků[editovat]

  1. Seznam použitých nadpisů je průběžně kontrolován a opravován. Zavedením šablon by se sice odstranily některé překlepy, ale vznikaly by jiné, čas od času by se vyskytl nesprávný jazyk na nesprávném místě a beztak by se potom vyskytovalo obojí (šablonizace i ručně psané) a muselo by se to i nadále průběžně kontrolovat a opravovat. Stejných výhod by šlo dosáhnout rozdělením jazyků na podstránky, i když v tomto případě by bylo potřeba mnohem víc práce, než by bylo možné rozdělení implementovat. JAn Dudík (diskuse) 14. 3. 2016, 07:20 (CET)
    Jak by se u podstránek daly automaticky tvořit některé z výše navržených kategorií jako např. dle počtu písmen či retrográdní řazení? Buď by ty kategorie nebyly vůbec možné (jako teď), nebo by je musela tvořit nějaká nová funkce MW (o níž lze nyní leda spekulovat) a nebo by ve stránce musela být na pozadí šablona, která to dělá. Řekněme, že nejschůdnější cesta by byla přes tu prázdnou šablonu. Pak vidím rozdíly mezi podstránkami a navrženou šablonizací jako malé. Přičemž největší rozdíl mezi podstránkami a šablonizací (má-li být zachována výhoda tvorby červených odkazů na neexistující stránky) je v tom, že v případě podstránek by každý jednotlivý vnitřní odkaz musel být ve formě [[stránka/kód|stránka]], což by bylo pro lidské editory dost otravné. --Auvajs (diskuse) 14. 3. 2016, 07:48 (CET)
    @JAn Dudík: Modul:JazykTEST: takhle se i ten monitoring dá dělat přes automatické kategorie, což i ten monitoring dost zjednoduší, ne? Takže by zůstal monitoring toho, zda je v hesle šablona Jazyk vůbec vložena. --Auvajs (diskuse) 25. 3. 2016, 13:34 (CET)
  2. Jako navrhovatel jsem pro. Výhody navrženého řešení výrazně převyšují nevýhody současného stavu, přičemž toto řešení lze provést relativně snadno a rychle a bez nějakého většího zásahu do systému. --Auvajs (diskuse) 14. 3. 2016, 07:55 (CET)

Šablonizace nadpisů slovních druhů[editovat]

  1. Jako navrhovatel jsem pro. Zlepší se možnosti strojového zpracování, zavede automatická kategorizace a vznikne možnost automatického tvoření různých druhů kategorií. --Auvajs (diskuse) 14. 3. 2016, 07:52 (CET)

Změna kategorizace slovních druhů[editovat]

  1. Jsem pro jako navrhovatel. Viz výše. --Auvajs (diskuse) 14. 3. 2016, 07:53 (CET)

Diskuse[editovat]

Bylo uvedeno, že vzniknou kategorie obsahující všechna hesla v daném jazyce, což určitě vítám. Lze tímto způsobem také získat rozdělení na lemmata a tvary? Bylo by přínosné mít přehled i o tomto poměru. --Palu (diskuse) 25. 3. 2016, 16:10 (CET)

Je myšlena kategorizace ve stylu Čeština/lemmata, Čeština/tvary? Bohužel tvary ve formátu hesla neuvádíme strukturovaně a v tom "ručním" vypisování je obrovské množství variant, prakticky to nejde vychytávat automaticky. Kdyby se tvary uváděly šablonou, tak by to šlo, ale v současné době to bohužel nejde. --Auvajs (diskuse) 25. 3. 2016, 16:38 (CET)
EDIT: u ohebných slovních druhů by bylo možné zařazení do Čeština/lemmata pomocí skloňovací tabulky už teď. Ale nevím jestli je dobrý nápad automaticky kategorizovat do Čeština/tvary v případě, že to je ohebný slovní druh a není vložena skloňovací tabulka. --Auvajs (diskuse) 25. 3. 2016, 16:46 (CET)

Mnoho problémů, málo přínosu[editovat]

Když ptáčka lapali, dobře mu zpívali...

Jsou tu barvitě předkládány výhody navržených řešení a přitom jsou zamlčovány jejich nevýhody a jsou tu zmiňovány funkce, které jsou za současných podmínek technicky nemožné nebo náročné. Naopak jsou tu některé věci prezentovány jako značně problematické, ač tomu tak není. Takže si to uveďme na pravou míru:

Obecné teze[editovat]

  1. značně ztížená možnost strojového zpracování
    • ta tu je především kvůli neukázněnosti uživatelů, kteří mnohdy vědomě a svévolně nedodržují formát hesla a kódu, a kvůli těm, kteří torpédují snahy o zajištění konzistence

Zápis jazyků[editovat]

  1. náchylnost k chybám (překlepy, resp. chyby uživatelů)
    • je stejná v přímém zápisu jako šablonovém, neboť je stále závislý na uživatelském vstupu
  2. nekonzistence (nejednotnost zápisu), které někdy mohou zůstat i dlouho nepovšimnuté/neopravené/nestandarizované
    • nemohou, probíhá pravidelná periodická kontrola a s ní spojená údržba. (A kdyby tu nebyla torpédována snaha o automatickou jednotnost, tak by těch případů bylo ještě méně.)
  3. nemožnost automaticky provádět další funkce na pozadí
    • to ovšem není práce nadpisu (blížší rozbor níže)
  4. možnost individuálního nastavení zobrazení nadpisu jazyka
    • v současné době technicky efektivně neproveditelné

Zápis slovních druhů[editovat]

  1. náchylnost k chybám (překlepy, resp. chyby uživatelů)
    • je stejná v přímém zápisu jako šablonovém, neboť je stále závislý na uživatelském vstupu
  2. nekonzistence (nejednotnost zápisu), které někdy mohou zůstat i dlouho nepovšimnuté/neopravené/nestandarizované
    • nemohou, probíhá pravidelná periodická kontrola a s ní spojená údržba. (A kdyby tu nebyla torpédována snaha o automatickou jednotnost, tak by těch případů bylo ještě méně.)
  3. nemožnost automaticky provádět další funkce na pozadí
    • to ovšem není práce nadpisu (blížší rozbor níže)
  4. nadpisy by šly nastavit individuálně podle jazyka a to jednak na celém Wikislovníku i v uživatelském nastavení
    • v současné době technicky efektivně neproveditelné
    • narušuje proklamovanou konzistenci
  5. veškerá kategorizace dle slovních druhů by probíhala automaticky
    • není pravda (pořád je nutný uživatelský vstup, čímž se neeliminuje náchylnost k chybám)
    • neřeší tvary
    • v současné době technicky efektivně neproveditelné
  6. šly by kategorizovat počty slov v daném jazyce
    • slovo v daném jazyce je buď právě jedno (počítáme-li jej jako unikátní sekvenci znaků), nebo jich je více, ale pak je třeba brát v potaz různé slovní druhy, etymologie a významy, což je v současné době technicky efektivně neproveditelné

Představené kategorie[editovat]

  1. Kategorie:Slova existující v češtině i slovenštině
    • především lze tato slova najít pomocí vyhledávání, takže netřeba kategorizaci
    • jak by se asi jmenovala příslušná kategorie pro heslo a nebo podobné?
  2. retrográdní řazení — Kategorie:Slova končící na: -s/dánština
    • k retrográdnímu řazení stačí jediná kategorie per jazyk a případně jedna pro všechny dohromady
  3. Kategorie:Slova v azbuce
    • lze najít pomocí vyhledávání
  4. Kategorie:Slova čtená zprava doleva
    • zbytečné, neboť je to už samo o sobě dáno jazykem(×písmem)
    • lze najít pomocí vyhledávání
  5. Kategorie:Čeština/Slova s tvrdým i po l
    • lze najít pomocí vyhledávání (přesněji nelze, protože tvrdé i není, ale to jen pro případ, že by tu někdo chtěl slovíčkařit)
  1. Můžete prosím dát příklad, jak snadno najít seznam všech slov, resp. hesel, která se shodují v češtině i slovenštině?
  2. "jak by se asi jmenovala příslušná kategorie pro heslo a nebo podobné?": není třeba to přehánět, ale každopádně se takto dá snadno zjistit, kolik z hesel, která zde máme, se vyskytuje třeba v 6 nebo těch 11 jazycích.
  3. retrográdní řazení: je na diskuzi, jak to bude vypadat
  4. Slova v azbuce: jak se prosím dá vyhledat seznam všech těch slov, která zde máme?
  5. Slova čtená zprava doleva: jak se prosím dá vyhledat seznam všech těch slov?--Auvajs (diskuse) 25. 3. 2016, 20:32 (CET)

"automatické funkce na pozadí"[editovat]

  1. Nadpis neslouží k tomu, aby (polo)automaticky prováděl řadu nesouvisejících kategorizací. Šablona má dělat to, co je od ní intuitivně očekáváno, a ne spoustu dalších věcí. Obecně jde o špatný programátorský návyk.
  2. V představeném řešení nebude nikdy nic automaticky, ale vždy jen poloautomaticky, neboť to stále bude záviset na uživatelském vstupu, navíc korektním a nesrovnalosti to neodhalí.
  3. Kategorizace by byla několikanásobně opakovaná (v závislosti na počtu nadpisů), což je nesystematický overkill zbytečně zvyšující nároky na zpracování stránky.
  1. Před pár roky taky nikdo neočekával, že telefon bude fotit. Určitě si zvyknete, nebojte.
  2. Jak přesně je poloautomatická třeba detekce palindromu? Uživatelský vstup je založení hesla. Název jazyka musí uživatel ručně vložit i u podstránek.
  3. Stejný „overkill“ děláte v Modul:Překlady. Zajímavé, že tam vám to nevadí :) --Auvajs (diskuse) 25. 3. 2016, 20:18 (CET)

Neexistence představovaných funkčností[editovat]

Většina z představovaných funkčností neexistuje. Většinu z té většiny není za současných podmínek možné efektivně naprogramovat. Požaduje se tu souhlas s něčím, co neexistuje a dost dobře ani nemůže. Pokud se to ořeže jen na existující a vytvořitelné funkčnosti, dojde se k závěru, že přínos změny je vzhledem k nákladům na ni minimální.

 ? Naprogramovat lze všechno a ještě spousta dalších funkcí. Kolega Matěj Suchánek už spoustu z toho naprogramoval. Vy sám jste tu jednou psal, že jde všechno, když se chce.. :) Náklady jsou zanedbatelné oproti plusům. --Auvajs (diskuse) 25. 3. 2016, 20:21 (CET)

Závěr[editovat]

Je známo, že jsem velký podporovatel strukturovaných a sémantických dat, takže nikdo nemůže můj výše uvedený rozbor napadat, že jsem proti jejich zavedení.

Takto to ale fungovat nebude, práci to neušetří, ba naopak přidělá kvůli nutnosti všechno přepisovat. Kýženou plnou automatizaci a (efektivní) proveditelnost předkládaných funkčností to nezajistí. To a další funkce navíc by zajistily jedině podstránky. Vzhledem k současnému stavu MediaWiki, resp. její (možné) konfigurace na projektech Wikimedia, ovšem není možné vyjít vstříc všem kladeným požadavkům.

Jsou tak pouze dvě možné varianty:

  1. Bude se trvat na zachování současného zobrazování a zůstane se tak u současného stavu, kdy se řada automatizovatelných údajů musí zadávat ručně, datamining je obtížný až nemožný a další funkce nelze prakticky implementovat. Maximálně to bude s drobnými víceméně kosmetickými vylepšeními, která ovšem žádnou zásadní změnu nepřinesou.
  2. Oželí se některé požadavky na zobrazení a přejde se na maximální možnou strukturovanost, což umožní používání nástrojů usnadňujících editaci a zajišťujících konzistenci, propojení s / importy z / exporty do dalších databází, datamining, v současnosti nemožné či obtížné vazby mezi jednotlivými slovy, další možnosti lingvistické kategorizace, automatizaci zakládání některých typů hesel atd...

Danny B. ( diskusemail přehled příspěvků ) 25. 3. 2016, 19:48 (CET)

Co myslíte zavedením podstránek? Tím, že stránky rozsekáte na jazykové podstránky, docílíte jen toho, že některé odkazy zčervení a naprosto každý vnitřní odkaz bude nutno psát ve tvaru [[heslo/podstránka|heslo]], což bude pro lidské editory extrémně otravné. Kromě této věci podstránky nenabízejí vůbec nic, co by nešlo realizovat touto šablonizací. Kromě toho o co vám jde, je myslím každému soudnému člověku jasné. Jde vám o to potopit technickou změnu, s níž jste nepřišel vy osobně. Zde je to navíc zesíleno tím, že s tím přišel uživatel, kterého nemáte rád. --Auvajs (diskuse) 25. 3. 2016, 23:35 (CET)