Phaneb
Alăturat în 1 decembrie 2012
Salut! Mă numesc Cioc Ștefan și locuiesc în România.
Lucrez la un proiect de import al definițiilor din DEX-ul '98, de pe www.dexonline.ro, în Wiktionary. Mai multe detalii găsiți în pagina proiectului, pe sourceforge!
Definițiile sunt importate folosind botul Utilizator:Phanebot.
15.11.2013: Proiectul s-a încheiat. Wiktionarul a crescut la 112.910 pagini.
Probleme cunoscute în paginile create:
- erori legate de linkurile la cuvintele existente:
- datorate ambiguității formelor flexionare (ex. copii poate fi pluralul de la copil sau de la copie, poartă poate fi substantiv sau formă flexionară de la a purta). Am aplicat un algoritm euristic, bazat pe cazul cel mai probabil (dacă înaintea cuvântului este a, se, să, care: se presupune că este verb și se caută întâi în formele flexionare ale verbelor, apoi ale substantivelor și adjectivelor, altfel se caută în formele flexionare ale substantivelor, apoi ale adjectivelor, apoi ale verbelor). O parte se datorează și bazei de date dexonline care conține forme flexionare pentru cuvinte foarte rare, case coincid cu forme flexionare ale cuvintelor uzuale, și în unele cazuri primele au fost alese de algoritmul euristic. Am implementat corecții punctuale pentru unele cuvinte, dar probabil că tot au mai rămas linkuri greșite.
- datorate ambiguității adjectiv - substantiv (ex. o tânără mergea pe stradă, tânără este substantiv și trebuie să aibă link la tânără, dar în expresia ramură tânără, tânără este adjectiv și trebuie să aibă link la tânăr). Iarăși am folosit un algoritm euristic (dacă înainte este un, o sau e primul cuvânt, se consideră că e substantiv, altfel adjectiv).
- atunci când apar cuvinte compuse, nu s-a pus link la cuvântul compus cu totul, ci la cuvintele individuale (ex. ziua de naștere a fost formatată ca [[zi]]ua de [[naștere]], și nu ca [[zi de naștere|ziua de naștere]]. Chiar dacă tehnic e posibil, detectarea cuvintelor compuse (și mai ales a flexiunilor lor!) era destul de complicată și am considerat că nu merită efortul.
- erori legate de clasificarea sintagmelor, expresiilor, locuțiunilor: de cele mai multe ori acestea sunt clasificate ca atare, dar uneori sunt prezentate fără a se specifica ce sunt, sau sunt prezentate la grămadă (ex. în expresii și sintagme ...). Am aplicat un algoritm euristic pentru separarea acestor cazuri, dar mai sunt cazuri care evident au fost clasificate greșit (expresii sau locuțiuni ca sintagme, de cele mai multe ori).
Ce se mai poate face:
- de adăugat informații în paginile existente dar care sunt incomplete sau greșit structurate (paginile cu Ajutor, pentru început - ar trebui luate și verificate manual)
- de adăugat categorii - odată ce arborele categoriilor este complet și clar structurat, s-ar putea adăuga categorii pe baza unor cuvinte cheie din definiții (ex. substanță, compus -> Chimie etc.). Evident, după verificarea manuală a sugestiilor create în acest fel.
- de adăugat traduceri - prin migrare din dicționare cunoscute sau a traducerilor în română din celelalte limbi din Wiktionary
- de adăugat sinonime, antonime, imagini, etimologii mai rafinate...
Wikționar:Babel | ||
| ||
Caută utilizatori după diverse criterii |