플젝서치

PDF문서의 특정 정보를 텍스트추출하여 엑셀파일로 변환

5,000,000원
작업방식 : 외주,예산
모집기한 : 크몽에서 확인
예상기간 : 54일
프로젝트조회 : 크몽에서 로그인 필요
받은제안 : 크몽에서 확인

0. 견적사항
500만 원 내외 / 1-2개월
* 데드라인 별도 없음

1. 프로젝트 개요
PDF의 특정 데이터를 EXCEL로 변환하는 작업이 필요합니다.

2. 프로젝트 배경
일전에 로컬 데이터 내 css/html 업로드 -> 파싱할 수 있는 솔루션을 사용하여 20만 개의 데이터를 추출하였는데, 중간 과정에서 db 이관이 누락되어 재추출을 진행하고자 합니다. 이때 오류가 난 사유는 정확히 알지 못하며 필요 시 그때 작업한 소스코드/문서를 공유드릴 수 있습니다.

3. 개발 언어
필수 언어는 따로 없으며, 사용 가능하신 언어를 이용해 최종 엑셀파일만 전달주시면 됩니다. (.Net, php, java 등)

4. 프로젝트 범위
– 최종 산출물: Excel 파일
– 1회 성 작업이기 때문에, 데이터를 추출하는 exe 프로그램 소스코드는 별도 납품 필요하지 않습니다.
– 기존 보유하신 솔루션을 사용하셔도 되고, 프로그램을 별도 설계하여 추출하셔도 됩니다.

5. 프로젝트 상세
– 추출 대상: 파일 약 16만 개 (파일 하나 당 1page, 총 16만 page)
– 문서 레이아웃은 총 3 종류
– 샘플 PDF 파일 “9. 물리화학적 특성” 부분을 EXCEL로 추출
– 하기 키워드를 구분자로 추출하면 됨 (하기 키워드가 표의 행이 되고, 아래에 데이터값이 쌓이는 방식입니다.)
: 외관 / pH / 인화점 / 끓는점 / 비중

6. 제공 사항
(1) 엑셀 양식
(2) 양식 내 들어갈 db key값 및 pdf 파일명 리스트
(3) pdf 파일들 (웹 하드 등으로 전달)
(4) 필요 시, 당사 개발자가 일부 기술지원 가능합니다.

※상기 프로젝트 내용 및 첨부 자료를 상업적 목적으로 도용/활용할 경우, 법적 제재를 받을 수 있음.※

※포트폴리오/소개 자료 (회사소개서, 홈페이지 등)/견적서/제안서 등에 외부 연락처 기입 시 정책 위반으로 불이익을 당할 수 있으니 유의 바랍니다.※

정보 수집일: 2024년 05월 01일

오전 8:38

관련 프로젝트

본 프로젝트 내용에 문제가 있거나 의견이 있으시면 저희에게 알려주시면 감사하겠습니다.
(ex 내용오류, 내용정정, 삭제요청, 추가내용 요청 등)