Autore | Messaggio |
---|---|
Emanuele
![]() Webmaster Msg inviati: 2423 |
Non so se qualcuno tra i collaboratori-sviluppatori del sito possa essere interessato alla cosa: si tratta del notiziario di Latina Oggi. Esistono delle librerie per generare dinamicamente file pdf ma nessuno ha ancora creato delle librerire per leggerli.
(Ultima modifica da parte di Emanuele il 07/09/2006, 12:30.
Modificato 2 volte in totale)
|
Emanuele
![]() Webmaster Msg inviati: 2423 |
Un punto di partenza potrebbe essere questo: |
piciola
Msg inviati: 420 |
Emanue' se ne può parlare per quanto mi riguarda, però non posso prima del 23 settembre!!!
![]() |
Giomini
![]() Msg inviati: 644 |
potrei anche applicarmici, ma sai già che ho un'altra priorità. comunque se non ci vuole troppo tempo si può fà
|
CyberSyx^
![]() Msg inviati: 65 |
Emanuele ha scritto:
Un punto di partenza potrebbe essere questo:
Emanuele nn penso quello sia un punto di partenza, quello è solo un programma per leggere i file pdf sotto X (ovvero interfaccia grafica di Linux) magari si può partire da pdftohtml. |
Emanuele
![]() Webmaster Msg inviati: 2423 |
CyberSyx^ ha scritto: Emanuele ha scritto: Un punto di partenza potrebbe essere questo:
Emanuele non penso quello sia un punto di partenza, quello è solo un programma per leggere i file pdf sotto X (ovvero interfaccia grafica di Linux) magari si può partire da pdftohtml. Sbagliato: il progetto XPDF è codice OPEN SOURCE che implementa - tra le altre cose - anche la lettura e l'estrazione di testo da files pdf ed è scritto in C++. E' quindi un buon punto di partenza per riscriverne uno in PHP, visto che in questo linguaggio non c'è ancora codice utilizzabile. Se non sbaglio il pdftohtml è un'applicazione commerciale (eseguibile binario), quindi inutile al nostro scopo. |
Giomini
![]() Msg inviati: 644 |
caspita avevo capito male! praticamente dici di scriverla proprio da 0 una libreria per leggere i pdf
pensavo che lo scopo era quello di far funzionare il notiziario |
CyberSyx^
![]() Msg inviati: 65 |
Emanuele ha scritto:
CyberSyx^ ha scritto: Emanuele ha scritto:
Un punto di partenza potrebbe essere questo:
Emanuele non penso quello sia un punto di partenza, quello è solo un programma per leggere i file pdf sotto X (ovvero interfaccia grafica di Linux) magari si può partire da pdftohtml. Sbagliato: il progetto XPDF è codice OPEN SOURCE che implementa - tra le altre cose - anche la lettura e l'estrazione di testo da files pdf ed è scritto in C++. E' quindi un buon punto di partenza per riscriverne uno in PHP, visto che in questo linguaggio non c'è ancora codice utilizzabile. Se non sbaglio il pdftohtml è un'applicazione commerciale (eseguibile binario), quindi inutile al nostro scopo.
non è un'applicazione commerciale, Ci sono i sorgenti, io ho compilato i sorgenti su linux e lo sto usando. |
Emanuele
![]() Webmaster Msg inviati: 2423 |
CyberSyx^ ha scritto:
non è un'applicazione commerciale, Ci sono i sorgenti, io ho compilato i sorgenti su linux e lo sto usando. Ah ok, potevi mettere il link al sito allora. Comunque se è questo: http://pdftohtml.sourceforge.net/ anche lui utilizza la libreria XPDF di cui ho parlato prima quindi sempre da lì bisogna partire. |
CyberSyx^
![]() Msg inviati: 65 |
ma se invece nn facciamo semplicemente uno bello script in php utlizzando pdtohtml? non è più semplice ?
|
Emanuele
![]() Webmaster Msg inviati: 2423 |
Ho trovato un altro pezzo di codice che potrebbe essere utile: http://www.codeproject.com/cpp/ExtractPDFText.asp Code to extract plain text from a PDF file Anche questo purtroppo è in C++ quindi va convertito in PHP. Tuttavia, la libreria ZLIB che utilizza per decomprimere il testo nei file PDF è già integrata in PHP, e questo semplifica molto il lavoro. |
Emanuele
![]() Webmaster Msg inviati: 2423 |
Emanuele ha scritto:
Ho trovato un altro pezzo di codice che potrebbe essere utile: http://www.codeproject.com/cpp/ExtractPDFText.asp Code to extract plain text from a PDF file Anche questo purtroppo è in C++ quindi va convertito in PHP. Tuttavia, la libreria ZLIB che utilizza per decomprimere il testo nei file PDF è già integrata in PHP, e questo semplifica molto il lavoro. Dall'articolo la cosa sembra abbastanza semplice. Praticamente si apre il file pdf e si estraggono i blocchi di dati delimitati dalle stringhe "stream" e "endstream" (gli oggetti che formano la struttura del file pdf). Ciascun blocco può contenere una porzione di testo (o altri contenuti), e una volta identificato un blocco contenente testo lo si decomprime utilizzando la libreria Zlib e il gioco è fatto. |
piciola
Msg inviati: 420 |
Quindi il discorso della ricerca full text e del campo blob se ne va a far friggere?
|
Emanuele
![]() Webmaster Msg inviati: 2423 |
Anche quella è un'idea interessante, però come ti ho detto non sono sicuro che funzioni, visto che il testo in un file pdf è memorizzato in formato compresso. |
Emanuele
![]() Webmaster Msg inviati: 2423 |
Sono a buon punto, sembra ci siano ottime probabilità che funzioni. Sono riuscito ad aprire e decomprimere il testo in un file pdf direttamente da PHP. Spero a breve di pubblicare qui una prima demo funzionante. |
Emanuele
![]() Webmaster Msg inviati: 2423 |
Ecco una prima dimostrazione funzionante dello script.
https://www.fondani.it/notiziario/test/test_latina_oggi.php Selezionando il giorno nel menu verranno mostrate tutte le pagine pubblicate su latina-oggi di quell'edizione. Selezionando la pagina verrà importato il file pdf e convertito in tempo reale in testo html. Sembra funzioni discretamente. La parte più difficile è stata quella di associare correttamente ciascun titolo (ed eventualmente sottotitolo e occhiello) al blocco di testo corrispondente. Tuttora c'è qualche problema quando l'articolo è formattato in maniera particolare. Visto che c'ero ho anche importato le immagini. Pure qui però non è molto facile riuscire ad associare l'immagine all'articolo corrispondente, per cui il grado di accuratezza non è elevatissimo. Però sono molto soddisfatto di come è uscito e ritengo la sfida vinta! ![]() Farò ancora qualche altro test, e se la redazione di latina-oggi darà l'autorizzazione a riportare gli articoli nella rassegna stampa di fondani.it aggiungerò anche questo quotidiano al robot. |
SergiodiRio
![]() Msg inviati: 281 |
Emanuè si gruoss! |
Antennasport
![]() Collaboratore Msg inviati: 556 |
complimenti a te Emanue'!!!
|
MrMandarino
![]() Msg inviati: 180 |
Spettacolare!
|
Claudia*
![]() Msg inviati: 593 |
POOOOOOO PO PO PO PO POOOOOOOOOOO POOOOOOOOOOO
hahahah! :)
|
Emanuele
![]() Webmaster Msg inviati: 2423 |
Ho ulteriormente migliorato lo script. Non è ancora perfetto, ma penso sia pronto per essere aggiunto al notiziario del sito.
Ho messo al corrente la redazione di "latina Oggi" delle mie intenzioni e non ho ricevuto alcun divieto di procedere. Lo considero come tacito assenso e pertanto nei prossimi giorni provvederò ad integrare il notiziario con gli articoli del suddetto quotidiano. |
Emanuele
![]() Webmaster Msg inviati: 2423 |
Notiziario aggiornato!
Il nuovo automa è ancora in fase sperimentale, quindi se notate delle anomalie segnalatemele per favore. |
piciola
Msg inviati: 420 |
Sei un grande Manu! |
AzzBanD
![]() Msg inviati: 547 |
piciola ha scritto:
Sei un grande Manu!
e cert s sentiva la mancanz!!!! |
Francesco Fusco
![]() Msg inviati: 3760 |
grazie Emanuele grazie Fondani.it adesso, nella rassegna stampa, compaiono anche gli articoli di "Latina Oggi", si sentiva infatti (almeno lo scrivente) la mancanza anche di questo quotidiano per avere una visione completa (o quasi) degli accadimenti che interessano il territorio di Fondi.
|
Spermy
![]() Collaboratore Msg inviati: 1484 |
Ciao manu ci sono problemi nella visualizzazione della notizia del falso geometra di "Latina Oggi" in home del giorno 28-01-2007 :-)...
|
Emanuele
![]() Webmaster Msg inviati: 2423 |
Ok corretto, grazie. Il problema non dovrebbe verificarsi più.
|
piciola
Msg inviati: 420 |
Manu, senti ho notato che nel notiziario, ancora riporta alcune notizie doppie. Non so se è dovuto al DB o cosa, fatto sta che questo problema si verifica solo ed esclusivamente per Latina Oggi!!!
|
Emanuele
![]() Webmaster Msg inviati: 2423 |
Effettivamente c'era un errore. Ora dovrei averlo corretto. Grazie di avermelo segnalato!
|
SergiodiRio
![]() Msg inviati: 281 |
Caro cap'mast' ti segnalo che è disponibile online in formato pdf un'altra testata provinciale: Il Territorio. |