import os from langchain_openai import ChatOpenAI from langchain_classic.chains import RetrievalQA from langchain_classic.document_loaders import PyPDFLoader from langchain_classic.prompts import PromptTemplate from langchain_community.embeddings import HuggingFaceEmbeddings from langchain_community.vectorstores import Chroma
import urllib.request import gradio as gr
urllib.request.urlretrieve("https://github.com/chatgpt-kr/openai-api-tutorial/raw/main/ch07/2020_%EA%B2%BD%EC%A0%9C%EA%B8%88%EC%9C%B5%EC%9A%A9%EC%96%B4%20700%EC%84%A0_%EA%B2%8C%EC%8B%9C.pdf", filename="2020_경제금융용어 700선_게시.pdf")
loader = PyPDFLoader("2020_경제금융용어 700선_게시.pdf") texts = loader.load_and_split() print('문서의 수 :', len(texts))
embedding = HuggingFaceEmbeddings( model_name="BAAI/bge-m3", model_kwargs={"device": "cpu"} )
vectordb = Chroma.from_documents( documents=texts, embedding=embedding )
print(vectordb._collection.count()) 366 for key in vectordb._collection.get(): ... print(key) ... ids embeddings documents uris included data metadatas
documents = vectordb._collection.get()['documents'] print('청크의 개수 :', len(documents)) 청크의 개수 : 366 print('-' * 50) -------------------------------------------------- print('0번 청크 출력 :', documents[0]) 0번 청크 출력 : iii 찾아보기 한국은행은 국민들이 경제 및 금융에 대한 이해도를 높이고 경제에 관한 합리적인 의사결정 능력을 키울 수 있도록 현장 경제교육, 온라인 경제교육, 경제교육 콘텐츠 개발 등 대국민 경제교육을 다양하게 수행해 오고 있습니다 . 이의 일환으로 2018년 경제금융용어 700선 을 발간하였는데 그간 동 책자에 대한 수요가 꾸준히 늘어남에 따라 이번에 추가로 발간하게 되었습니다 . 지난번 내용과 같이 통화정책, 실물경제, 금융안정, 지급결제 등 한국은행 주요 업무를 이해하는데 필요한 전문 용어와 경제·금융 흐름을 이해하는데 도움이 되는 시사 경제금융 용어들을 수록하였습니다. 용어해설은 개념과 도입 배경, 의미, 적용 사례 등을 담아 쉽게 이해할 수 있도록 하였습니다. 또한 e-book으로도 제작하여 독자들의 편의성과 가독성을 높였습니다 . 코로나 19로 이전에 경험하지 못한 경제위기를 겪으면서 경제·금융 현상에 대한 일반인들의 관심도가 이전에 비해 높아졌습니다. 아무쪼록 이 책자가 한국은행의 주요 정책과 국내외 경제를 이해하는 데 조금이나마 도움이 되기를 바라겠습니다. 끝으로 경제금융용어 700선 집필에 참여해주신 경제교육실 교수님들과 용어 집필에 좋은 의견을 주신 관련부서 여러분께 감사드립니다 . 2020년 8월 한국은행 경제교육실장 박 철 원 머 리 말
embeddings = vectordb._collection.get(include=['embeddings'])['embeddings'] print('임베딩 벡터의 개수 :', len(embeddings)) 임베딩 벡터의 개수 : 366 print('0번 청크의 임베딩 값 출력 :', embeddings[0]) 0번 청크의 임베딩 값 출력 : [ 0.00253409 -0.00188405 -0.05017297 ... 0.03743017 -0.00941579 -0.04372674] print('0번 청크의 임베딩 값의 길이 :', len(embeddings[0])) 0번 청크의 임베딩 값의 길이 : 1024 metadatas = vectordb._collection.get()['metadatas'] print('metadatas의 개수 :', len(metadatas)) metadatas의 개수 : 366 print('0번 청크의 출처 :', metadatas[0]) 0번 청크의 출처 : {'creationdate': 'January 31, 2018 16:21', 'page': 3, 'moddate': 'January 31, 2018 16:21', 'producer': 'Smart PDF Imposition 1.0', 'page_label': '4', 'total_pages': 371, 'creator': 'Smart PDF Imposition 1.0', 'creationdate--text': 'January 31, 2018 16:21', 'title': '°æÁ¦±ÝÀ¶¿ë¾î 700¼±-ÃÖÁ¾.PDF', 'source': '2020_경제금융용어 700선_게시.pdf', 'author': 'INSUNG DATA INC.', 'subject': 'CoreImposition PDF 1.0 Output', 'moddate--text': 'January 31, 2018 16:21'}
docs = retriever.invoke("비트코인이 궁금해") print('유사 문서 개수 :', len(docs)) 유사 문서 개수 : 2 print('--' * 20) ---------------------------------------- print('첫번째 유사 문서 :', docs[0]) 첫번째 유사 문서 : page_content='139 ㅂ 비트코인 비트코인(bitcoin)은 가상통화(암호통화)이자 디지털 지급시스템이다. 비트코인 시스템 은 중앙 저장소 또는 단일 관리자가 없기 때문에 최초의 탈중앙화된 디지털통화라고 불린다. 이는 사토시 나카모토라는 사람(집단)에 의해 만들어져서 2009년 개방형 소프트웨어로 배포되었다. 이 시스템은 공유형(peer-to-peer)이며, 거래는 중개자 없이 블록체인 소프트 웨어를 이용하는 참여자(nodes) 사이에 직접 이뤄진다. 이런 거래들은 공유(P2P) 네트워크 상 참여자의 작업증명(proof-of-work)을 통해 검증되고 공개된 분산원장인 블록체인에 기록된다. 승인된 거래의 새 그룹인 한 블록은 대략 10분에 한 번씩 만들어져서 블록체인에 추가되고 신속하게 모든 참여자에게 보내어진다. 비트코인은 대규모 전기를 사용하는 컴퓨터 처리 능력(power)을 활용해서 이뤄지는 기록보관 서비스인 채굴(mining)에 대한 보상으로 발행되고 있으며 다른 통화・상품・용역 등과 교환되어가고 있다. 중앙은행이 발행한 법정화폐가 아닌 비트코인은 비트코인 플랫폼에서 거래되며 투자대상으로서도 관심을 받고 있다. 하지만 급등한 가격 및 심한 변동 폭으로 거품논란이 크다. 또한 익명성으 로 자금세탁 등 불법거래에 악용될 소지가 많아 중국 등 일부 국가에서 비트코인 등 가상통 화의 거래를 규제하고 있다. 일본의 경우 비트코인의 거래이익에 대해 세금을 부과한다. 비트코인은 추가되는 한 블록당 새로 12.5비트코인을 보상하는데(2016.7월 현재), 21만개 가 채굴될 때(대략 4년)마다 그 보상이 반으로 줄어든다. 비트코인의 총량은 21백만개이며 2140년경 모두 채굴될 것으로 전망된다. 비트코인은 그 시스템의 설계시 그 수량을 한정시 켜 놓았기 때문에 원칙적으로 인플레이션에 의해 가치가 떨어질 수 있는 화폐와 다른 속성을 지닌다. 한편 2017년 8월 1일 비트코인(classic bitcoin)에서 ‘비트코인캐시’(BCH)가, 10월 25일 ‘비트코인골드’(BTG)가 하드포크(hard-fork)되어 별도로 거래되고 있다. 연관검색어 : 가상통화, 작업증명, 블록체인 빅데이터 빅데이터(big data)란 복잡하고 다양한 대규모 데이터세트 자체는 물론 이 데이터세트 로부터 정보를 추출하고 결과를 분석하여 더 큰 가치를 창출하는 기술을 뜻한다. 수치 데이터 등 기존의 정형화된 정보뿐 아니라 텍스트 ・이미지・오디오・로그기록 등 여러 형태의 비정형 정보가 데이터로 활용된다. 최근 모바일기기와 SNS 이용 보편화, 사물인 빅데이터 ∙' metadata={'title': '°æÁ¦±ÝÀ¶¿ë¾î 700¼±-ÃÖÁ¾.PDF', 'creationdate--text': 'January 31, 2018 16:21', 'producer': 'Smart PDF Imposition 1.0', 'page_label': '156', 'moddate--text': 'January 31, 2018 16:21', 'moddate': 'January 31, 2018 16:21', 'source': '2020_경제금융용어 700선_게시.pdf', 'page': 155, 'creator': 'Smart PDF Imposition 1.0', 'creationdate': 'January 31, 2018 16:21', 'subject': 'CoreImposition PDF 1.0 Output', 'total_pages': 371, 'author': 'INSUNG DATA INC.'} print('두번째 유사 문서 :', docs[1]) 두번째 유사 문서 : page_content='6 경제금융용어 700선 가상통화공개(ICO) 가상통화(ICO; Initial Coin Offering) 공개는 주로 혁신적인 신생기업(startup)이 암호 화화폐(cryptocurrency) 또는 디지털 토큰(digital token, 일종의 투자증명)을 이용하여 자금을 조달할 수 있는 크라우드펀딩(crowd funding)의 한 방식이다. 가상통화공개 (ICO)에서 새로 발행된 암호화화폐는 법화(legal tender) 또는 비트코인 등 기존의 가상 통화와 교환되어 투자자에게 팔린다. 이 용어는 거래소에 상장하려는 기업이 투자자에게 자기 주식을 처음 공개적으로 매도하는 기업공개(IPO; Initial Public Offering)에서 연유 되었다고 볼 수 있다. 기업공개(IPO)에 참여한 투자자는 해당 기업의 소유권과 관련하여 주식을 획득한다. 반면 가상통화공개(ICO)에 참여한 투자자는 해당 신생기업의 코인 (coins) 또는 토큰을 얻는데, 이는 해당 기업이 제안한 프로젝트가 나중에 성공했을 경우 평가될 수 있는 가치(value)로 볼 수 있다. ICO는 주로 블록체인플랫폼인 이더리움 (Etherium)에서 이뤄지고 있다. 우리나라의 경우 현재 금지하고 있으며 앞으로 ICO에 대한 논의를 거쳐 유사수신행위 또는 증권관련 법률로 규제할 것으로 보인다 . 연관검색어 : 가상통화, 블록체인, 비트코인, 빅데이터, 크라우드펀딩, 핀테크 간접금융/직접금융 경제에는 자금 잉여주체와 자금 부족주체가 존재하게 되는데 이들 사이에 은행이나 저축은행 신용협동기구 등 금융기관이 개입하여 자금을 중개하는 방식을 간접금융 (indirect financing)이라고 한다. 즉 금융기관이 일반 대중으로부터 예금을 받아 이를 자신의 명의로 기업 등 다른 경제주체에게 대출해 주는 방식이다. 한편 주식, 채권 발행의 경우와 같이 자금수요자가 금융기관을 통하지 않고 금융시장에서 직접 필요자금 을 조달하는 방식을 직접금융(direct financing)이라고 한다. 간접금융에서는 은행이 중추적인 기능을 하고, 직접금융에서는 주식과 채권이 거래되는 자본시장이 중요한 역할을 수행한다. 직접금융과 간접금융은 상호 경쟁적일 뿐만 아니라 보완적이기도 하므로 두 금융방식이 균형적으로 발전될 필요가 있다. 직접금융과 간접금융의 상대적 비중이 어느 정도이어야 이상적인지는 해당 국가의 경제발전단계나 경제구조에 따라 달라질 수밖에 없다. 예를 들면 중소기업의 비중이 높은 국가일수록 정보의 비대칭성 문제를 완화하기 위해 간접금융이 더 중요하고, 혁신산업에 의해 주도되는 경제일수록' metadata={'producer': 'Smart PDF Imposition 1.0', 'moddate': 'January 31, 2018 16:21', 'subject': 'CoreImposition PDF 1.0 Output', 'creationdate--text': 'January 31, 2018 16:21', 'creationdate': 'January 31, 2018 16:21', 'page': 22, 'creator': 'Smart PDF Imposition 1.0', 'source': '2020_경제금융용어 700선_게시.pdf', 'total_pages': 371, 'title': '°æÁ¦±ÝÀ¶¿ë¾î 700¼±-ÃÖÁ¾.PDF', 'page_label': '23', 'author': 'INSUNG DATA INC.', 'moddate--text': 'January 31, 2018 16:21'}
|