Medžioklė dėl tos reto knygos iš jūsų vietinio knygyno garso versijos gali jaustis kaip vejasi šešėlį. Susipažinkite su „PageParrot“ – nuostabiu Nicko Bildo pasidaryk pats „pasidaryk pats“ kūriniu, kuris per kelias sekundes paverčia bet kurią fizinę knygą garso knyga.
https://www.youtube.com/watch?v=w-vdooevl00
Sąranką sudaro „Raspberry Pi Zero 2 W“ plokštė, USB varoma internetinė kamera ir „Python“ scenarijus. Tada atidarykite knygą, padėkite ją po internetine kamera, o „PageParrot“ užfiksuoja paveikslėlį. Tada „Google“ „Gemini 2.5“ naudoja optinio simbolių atpažinimą (OCR), kad patrauktų tekstą. Paskutinis, bet ne mažiau svarbus dalykas-„Piper“, atvirojo kodo teksto į kalbą variklis, šį tekstą paverčia pasakojimu. Rezultatas? MP3 failas, paruoštas žaisti jūsų telefone ar garsiakalbyje per kelias sekundes. „Viskas apie knygų atidarymą naujai“, – sakė Bild.
Visas procesas priklauso nuo tvarkingo 80 eilučių „Python“ scenarijaus, skirto „pasidaryk pats“ gerbėjams išlaikyti dalykus. „Bild“ ėjo su biudžetu draugišku „Raspberry Pi Zero 2 W“-15 USD lentele, kurioje yra pakankamai sulčių, kad būtų galima tvarkyti AI darbo krūvį. Internetinė kamera, dažnai pigi ar pakartotinai pakartotinai nusiteikusi USB modelis, griebia kiekvieną puslapį, o „Gemini 2.5“ aštrūs multimodaliniai įgūdžiai prikiša teksto ištraukimą, net naudodamiesi funky šriftais ar nelyginiais išdėstymais. Piperio balsai vengia tos senosios mokyklos robotų vibe, skamba stebėtinai žmogiškai. „Norėjau, kad kas nors galėtų plakti ir panaudoti“, – paaiškino Bild.
Vartotojams, kurie kovoja su mažyčiais spausdintais, tankiais puslapiais ar tiesiog mėgsta klausytis, šis dalykas yra visiškas žaidimų keitiklis. Tai ne tik veikia neaiškius pavadinimus-tai gali paversti bet kurią knygą, pradedant nuo „Dusty Old Classics“ ir baigiant šviežiais popieriaus viršeliais, ne garso knyga, nereikia iš anksto pagamintos versijos. Skirtingai nuo brangių paslaugų, tokių kaip „Speechify“ arba „Murf.ai“, kuriuose dažnai dėmesys sutelkiamas į el. Knygas ar mokesčių prenumeratas, „PagarRot“ yra vienkartinis pastatymas be nuolatinių išlaidų, darant prielaidą, kad turite „Raspberry Pi“ ir „Web Caster Handy“. Be to, jo atvirojo kodo kūrimas kviečia kitus gamintojus žaisti, galbūt modifikuoti balsą ar pridėti naujas AI funkcijas.
„PageParrot“ sudėti yra taip paprasta, kaip atrodo: „Raspberry Pi Zero 2 W“, „USB“ internetinė kamera ir maitinimo šaltinis. Programinės įrangos pusėje kalbama apie tinkamų „Python“ bibliotekų įkėlimą „Gemini 2.5“ ir „Piper“. „Bild“ hackaday.io puslapis viską išdėsto su aiškiais kodų fragmentais ir sąrankos patarimais. Ne technologijoms tai gali užtrukti šiek tiek kantrybės, tačiau atlygis yra didžiulis-įtaisas, kuris jūsų knygų lentyną paverčia garso knyga „Goldmine“. „Tai projektas, kuris auga kartu su jumis“, – sakė Bildas, pažymėdamas, kaip vartotojai gali jį pritaikyti, kad atitiktų jų stilių.
„PageParrot“ taip pat naudojasi kažkuo didesniu. Kadangi knygynai laikosi savo prieš skaitmeninius konkurentus, žmonės įsimyli fizinių knygų jausmą. Tačiau garso patogumą sunku įveikti. „PageParrot“ tiltai, kurie spragai, leisdami jums pasimėgauti ir puslapiu, ir šnekamuoju žodžiu nepraleisdami ritmo.
(Šaltinis)
Nuoroda į informacijos šaltinį