Enterprise Forever

:HUN => SOUND: => Topic started by: endi on 2015.August.12. 20:50:16

Title: Beszédprogram fejlesztése
Post by: endi on 2015.August.12. 20:50:16
Amikor megkaptam első pc-met, elkezdtem egy talk to speech programot fejleszteni.
A módszerem nagyon egyszerű volt. Mikrofonnal elkezdtem rögzíteni betűpárokat, aa, ab, ac, ad, ae stb. és így tovább minden betű kombinációja minden betűvel. A lejátszó pedig úgy mixelte egymás után a betűpárokat, hogy az egyik betűt átúsztattam (fade) a másikba. Sajnos túl sok meló volt vele, ezért csak az a, b kezdőbetűs párokat mondtam fel. Az eredmény azonban nagyon bíztató volt!  Sőt, meglepően jó. :) (Felmondtam néhány másik betűpárt is hogy tesztelhessem rendes mondatokkal, pl tök jól kimondta, hogy "elmegyek haza" és ilyesmiket.

Csak hát elvette a kedvemet, hogy már akkor is voltak elég jól beszélő programok, bár úgy emlékszem magyar nem volt még.

Na most pc-re persze már nincs értelme ilyet fejleszteni... viszont EP-re lehetne! Mit szóltok?

Ráadásul már nem is kéne mikrofonnal szórakozni, hanem akármelyik webes beszéldprogramba beadni a betűpárokat és ezt a hangot feldolgozni (kivágni a betűpárokat és kimenteni).

Az EP-s lejátszó pedig már gyerekjáték lenne.
Persze tudom, ennyi még nem elég egy jó beszédprogramhoz, de kezdetnek nagyon jó lehetne.
Title: Re: Beszédprogram fejlesztése
Post by: szipucsu on 2015.August.12. 22:57:30
Támogatom az ötletet!
Title: Re: Beszédprogram fejlesztése
Post by: Ep128 on 2015.August.12. 23:41:33
Anno a HDIGI -t hallottam Haluska Lacinál beszélni, már az is meglepően jó és élethű volt! :-) Támogato én is!
Title: Re: Beszédprogram fejlesztése
Post by: szipucsu on 2015.August.13. 13:59:19
Néhány apróságra figyelni kell majd, de az úgyis kibukik. Pl. a hosszú mássalhangzók kiejtése: máshogy ejtjük pl. a mm, nn, ll hangokat egy szón belül, mint pl. a tt, kk, gg-t. Az előbbieket tényleg időtartamban hosszabban ejtjük, az utóbbiaknál pedig lényegében az a helyzet, hogy a mássalhangzó előtt egy kis szünet van, tehát valójában nem hallatszik két darab tt, kk, gg hang. Remélem, érthető.
Sokszor megváltozik egyes hangok hangértéke attól függően, hogy milyen hang jön utána, ez is fontos lehet, bár beszélőprogramnál, ami nem a tökéletes beszédet adja vissza, talán nem olyan fontos.
Title: Re: Beszédprogram fejlesztése
Post by: endi on 2015.August.13. 20:10:53
Nagyon sok ilyen szabályt meg extrát lehet rakni egy beszédprogramba. Ezeket idővel lehet hozzáfejleszteni.
De pl a mostani EP-s (vagy bármilyen kisgépes) beszédprogramoknál nagyságrendekkel jobbat lehet elérni már azzal is amit leírtam (betűpárok egymásba fade-lése). Majd meglátjátok - persze ha lesz ebből egyáltalán valami. :)

Pl. a Speak Easy és társai mind 1 bites béna "hangmintákat" használnak (még csak nem is hangminták szerintem), ami eleve gáz ügye EP-n... legalább valami filtert raktak volna bele szoftveresen, ami az 1 bitet kicsit "több bitessé" teszi...

Na persze van még egy kérdés, a memória! Mert a sok kis rövid betűpár azért biztos elég sok memóriát foglal majd. De szerintem 128K azért elég lehet. :)
Title: Re: Beszédprogram fejlesztése
Post by: geco on 2015.August.14. 10:52:35
Na persze van még egy kérdés, a memória! Mert a sok kis rövid betűpár azért biztos elég sok memóriát foglal majd. De szerintem 128K azért elég lehet. :)
És ha nem, akkor is 640 Kb mindenre elég ;)
Title: Re: Beszédprogram fejlesztése
Post by: lgb on 2015.August.14. 11:25:35
Ez kicsit mar kevesbe EP tema talan, de en mindig azon gonolkodtam, hogy kotelezo-e a "digitalizalt alap". Miert nem lehet szimulalni a hangszalak mukodeset, es a kulonbozo utana utjaba allo dolgok (lasd nyelv, ilyesmi) hatasat az eloallitott hangra. Mondjuk fog'sincs, hogy akar PC-n vmi modern formaban hasznalnak-e ilyesmit, vagy meg mindig celravezetobb valami emberi hangbol kiindulni (pl amirol itt is szo volt: felvenni hangokat/hang-kapcsolatokat, aztan azokat mixelgetni - miegymas). Mondjuk, ha ilyen van is (nem tudom), ez talan mar nem EP szint lenne :)

Egy dolog viszont beugrott: ugy remlik, hogy AdLib kartyaknal kiserleteztek azzal, hogy egyszerre hasznaljak az osszes oszcillatort, pont "beszedemulacio" kapcsan. Azt mondjuk nem tudom, hogy ez mennyire szolt "jol", vagy egyaltalan hasznalta-e valaki valaha is.
Title: Re: Beszédprogram fejlesztése
Post by: endi on 2015.August.14. 11:33:01
én keresgettem beszéd programokat kisgépre, de semmi értelmeset nem találtam.
egyedül a c64 volt ami valamivel jobb mint a z80-asok vagy ilyesmi kisgépesek

de lehet hogy valaki ügyesebb rákeresne...

c64-est átírni gondolom nem lenne egyszerű
Title: Re: Beszédprogram fejlesztése
Post by: endi on 2015.August.14. 11:41:15
rosszul emlékeztem, ez a c64-es minimálisan jobb csak

https://www.youtube.com/watch?v=Rm4ZCGgzeeU
Title: Re: Beszédprogram fejlesztése
Post by: gflorez on 2015.August.14. 17:02:20
I remember the Amiga 500 had vocal synthesis from stock. I wtote a billings program for my father that requested him the data...

It had the basic sounds of English language so it sounded a little odd pronouncing Spanish words. But highly  understandable if tweaking a little with the sounds.

I also remember how a Spanish Spectrum magazine did a vocal synthetizer, but it had an horrible sound.
Title: Re: Beszédprogram fejlesztése
Post by: gflorez on 2015.August.14. 18:52:53
Meanwhile I've found the ROM of the Speakeasy chip:

http://spatula-city.org/~im14u2c/sp0256-al2/

This web-page contains explanations about the algorithms used. Can it be useful?
Title: Re: Beszédprogram fejlesztése
Post by: endi on 2015.August.14. 19:43:33
A Speak Easy topikban rátaláltam a Mikrobi című programra! Ez tényleg sokkal jobb hangot ad mint az az 1 bites specyről átírt izé.

http://ep128.hu/Ep_Util/Prg/Mikrobi.rar

Speak Easy hangmintákat keresek most...
Title: Re: Beszédprogram fejlesztése
Post by: szipucsu on 2015.August.14. 23:05:12
Az a hardveres Speakeasy nagyon jó. Egyik találkozón belehallgattunk az Eat It Up beszédbe, teljesen érthető. Jobb, mint az a C64-es, bár az is egész jó.
Title: Re: Beszédprogram fejlesztése
Post by: endi on 2015.August.14. 23:26:08
Az a hardveres Speakeasy nagyon jó. Egyik találkozón belehallgattunk az Eat It Up beszédbe, teljesen érthető. Jobb, mint az a C64-es, bár az is egész jó.

és ehhez a mikrobihoz képest?
Title: Re: Beszédprogram fejlesztése
Post by: szipucsu on 2015.August.15. 11:30:03
és ehhez a mikrobihoz képest?
Szerintem ahhoz képest is sokkal jobb a Speakeasy. Tehát a :SAY rendszerbővítőhöz képest is.

A SAY-jel a legtöbb szó érthetetlen, ahogy kimondja (ha nem tudod, mit mond, nem érted).
Title: Re: Beszédprogram fejlesztése
Post by: Ep128 on 2015.August.15. 11:55:37
HDIGI -nél jobb nem volt a témában, magasan vert mindent! (Sajnos hardver alig készült hozzá... Olyan 7-8 darabról tudok, de 1 tucatnál biztos nem volt több! Haluska Laci sajátjáért is "sorban álltak", mikor eladta...)
Anno hallottam szólni, "beszélni" és meglepően élethű, tiszta, élvezetes volt!!!
(Egyik Enterpress cikk erről szól...)
Title: Re: Beszédprogram fejlesztése
Post by: endi on 2015.August.15. 16:00:28
HDIGI -nél jobb nem volt a témában, magasan vert mindent! (Sajnos hardver alig készült hozzá... Olyan 7-8 darabról tudok, de 1 tucatnál biztos nem volt több! Haluska Laci sajátjáért is "sorban álltak", mikor eladta...)
Anno hallottam szólni, "beszélni" és meglepően élethű, tiszta, élvezetes volt!!!
(Egyik Enterpress cikk erről szól...)

na várj, az egy digitalizáló, nem? beszéd (text to speech) funkció nincs benne!
itt most a text to speech a lényeg
Title: Re: Beszédprogram fejlesztése
Post by: Ep128 on 2015.August.15. 22:56:51
na várj, az egy digitalizáló, nem? beszéd (text to speech) funkció nincs benne!
itt most a text to speech a lényeg

Valóban, így van! (Ezt csak azért hoztam fel, mert BESZÉD HANGOT (!) a HDIGI -nél élethűbben visszaadni én még Ep -n soha nem hallottam! Sem text to speech alapon, sem más gépen digitalizált /  onnan konvertált hangot, stb. Amikor Haluska Laci a saját hangomat vette fel vele és játszotta le utána, azt hittem, megszólaltam én a hátam mögött. :-D Mind ezt EP -n!!! :-) Valami olyasmit mesélt anno a Laci, hogy 8 bites hang alapon, de 16 bitest emulálva (?) oldja meg a program a feladatot... Bármit is jelentsen ez.)
Title: Re: Beszédprogram fejlesztése
Post by: szipucsu on 2015.August.15. 23:07:34
Elsőre egyébként, pusztán szórakozásból, lehet olyat is csinálni, ami csak viszonylag kevés szót ismer, és azokat variálja. Mondjuk a számokat 1-10-ig. Egy torpedó játékban meg is csináltam ezt. Vagy mondjuk sakkozásnál mindig mondja a koordinátákat is. És ehhez valami nagyon extrém grafikás sakkprogram, DTM zenével, az lenne az igazi.

Már nem teljesen ide tartozik, csak mellékes, hogy az se lenne gyenge megcsinálni, hogy a számokat is felismerje a program beszéd közben, és helyesen is olvassa fel. Ebben segíthet Lacika egy régebbi programja, ami a beírt számjegyeket leírja betűkkel. És mondjuk elsőre ezt meg lehetne csinálni, hogy fel is olvassa. Sok a számokban az ismétlődés (pl. tizen-, huszon-, és ami utánuk jön, az 1-9-ig a számok, már megvannak).
Title: Re: Beszédprogram fejlesztése
Post by: endi on 2017.January.30. 09:49:57
találtam egy c64 beszédprogram disassembly-t
http://hitmen.c02.at/html/tools_sam.html
Title: Re: Beszédprogram fejlesztése
Post by: szipucsu on 2018.December.21. 14:02:48
Ha a 0-ás csatornára felüláteresztő szűrőt állítunk be és az 1-es csatorna nyomja neki a frekvenciát, valamint a 2-es csatornán gyűrűmodulációt állítunk be, akkor a 2-es csatorna hangja némiképp emlékeztet amolyan beszédhangokra, legalábbis amolyan erősen robotos beszédzörejekre. Ha a három csatorna frekvenciáját megfelelően variáljuk, talán be lehetne lőni bizonyos beszédhangoknak megfelelő hangokat.
Ezt a gyűrűmodulációs hangzást az utóbbi időben használtam is a midikben, de nem beszédhangra, csak úgy. Pl. a Living on the Video zenében is van eredetileg rövid robotos beszédhang, annak utánzására is ezt dobtam be nemrég. Ha torzítást is bedobunk a gyűrűmoduláció mellett, az talán egyes mássalhangzók hangzására emlékeztethet.
Kíváncsi vagyok, ezzel a módszerrel lehetne-e valamennyire érthetően szavakat, mondatokat "kimondatni" a géppel.
Title: Re: Beszédprogram fejlesztése
Post by: endi on 2018.December.21. 14:58:53
ma már ezt szerintem ai-val kéne megcsináltatni.
azaz hogy betanítani neki hogy használja fel az ep hang képességeit beszédhangokhoz.
amúgy ha jól tudom a google és az MS ai dolgai open source-ok, szóval elvileg aki hozzáértő, letöltheti és mindenféle érdekes dolgot csinálhat velük.
sőt, már konkrét hardvereket is lehet venni, ami együttműködnek ezekkel az ai programokkal (ai-kártya, olyan mint a videókártya, csak ez ai-t gyorsít).
brutális lehetőségek vannak ebben.